هذه الطبعة 
إهداء من المركز 


ولايسمح بنشرها [m‏ 
أو تداولها تجاريا 


مدخل إلى 


+ 


أ د متصورين محمد الغامدي 

د عبد العزيز بن عبد الله المهيوبي 
أ أحمد روبي محمد عبد الرحمن 

د إشراق علي أحمد الرفاعي 

د صلاح راشد AU!‏ 

د وليد بن عبد الله الصانع 


تحرير: د عبد الله بن يحيى الطيطي 


مركز الملك عبدالته بن عبدالعزيز الدولي 


لخدمة اللغة العربية 
TheArabicLanguage Q‏ 
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مباحث لغوية Te‏ 


مدخل إلى اللسانيات الحاسوبية 


تأليف: 
أ. د. منصور بن محمد الغامدي 
د. عبدالعزيز بن عبدالله المهيوبي 
أ. أحمد روي محمد عبدالر من 
د. إشراق على أحمد الرفاعى 
د. صلاح راشد الناجم i‏ 
د. وليد بن عبدالله الصانع 


و 
د. عبدالله بن يحبى الفيفي 


O‏ مركز الملك عبدالته بن عبدالعزيز الدولي 
4 لخدمة اللغة العربية 
King Abdullah Bin Abdulaziz Int'l Center for 5‏ 
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O‏ مركز الملك عبدالته بن عبدالعزيز الدولي 
4 لخدمة اللغة العربية 
King Abdullah Bin Abdulaziz ntl Center for ® AX‏ 
. 


The Arabic Language 


مدخل إلى اللسانيات 

الحاسوبية 

الطبعة الأولى 

gr 4ه‎ 

جميع الحقوق محفوظة 

ENTER‏ او اترا 

ص.ب ۱۲٣۰۰‏ الرياض ١٠٤١۳‏ 
ھاتف: 1۸ ٩11۱1۱۲0۸۷۲‏ °۹ ° - ۰04111۱۲0۸1۰۸۲ 
البريد الإليكتروني: nashr@kaica.org.sa‏ 


ح/ مركز الملك عبدالله بن عبدالعزيز الدولي لخدمة اللغة 
العربية» EYA‏ ١ه.‏ 

فهرسة مكتبة الملك فهد الوطنية أثناء النشر 

الفيفي » عبدالله بن يحبى 

مدخل إلى اللسانيات الحاسوبية./ عبدالله بن يحيى الفيفى 
- الریاض» EYA‏ 1ه 

..ض؟ .. سم 

AVA- TY- 4 AS 07 Y- 8 ردمك:‎ 

-١‏ اللغة العربية-معالحة البيانات أ. العنوان 
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لايسمح بإعادة إصدار هذا الكتاب» أو نقله في أي شكل أو وسيلة» 
سواء أكانت إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين» أو أنظمة الاسترجاع» دون إذن خطي من المركز بذلك. 
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مقدمة المحرر O‏ 


الحمد لله رب العالمين» والصلاة والسلام على أشرف المرسلين» نبينا محمد وعلى آله 
وصحابته أجمعين» وبعد: 

يعد جال اللسانيات الحاسوبية (Computational Linguistics)‏ أحد العلوم البينية 
CInterdisciplinary)‏ التي تقع بين علمين مستقلين» وذلك JUAN‏ بعلم اللغويات 
أو اللسانيات من جهة» وبعلم الحاسب JYI‏ من جهة أخرى. ويرى مارتن كي Kay)‏ 
Y‏ أن اللسانيات الحاسوبية قد برزت إلى حيز الوجود خلسة وبخجل» وأن 
بدايتها كانت في عام 544١م‏ عندما كتب وارن ويفر مذكرته الشهيرة التي يشير فيها 
إلى إمكانية بناء نظام للترجمة الآلية. ثم تلا ذلك عقد أول Ea‏ للترجمة الآلية في معهد 


-١‏ عبدالله بن يحيى الفيفي: أستاذ اللغويات الحاسوبية المساعد في جامعة الإمام محمد بن سعود الإسلامية في الرياض. 
درس البكالوريوس في اللغة العربية في جامعة الملك خالد في أبهاء والماجستير في تعليم اللغة بمساعدة الحاسب في قسم 
اللغويات في جامعة (Essex‏ والدكتوراه في اللغويات الحاسوبية في قسم الحاسب gY‏ في جامعة «Leeds‏ وكلاهما في 
بريطانيا. له عدة أبحاث منشورة حول تقنيات معام حة اللغة العربية AT‏ والمدونات اللغوية وبرامجها الحاسوبية» وكذلك 
مدونات المتعلمين والمعاجم الحاسوبية لمتعلمي اللغة العربية» إضافة إلى مشاركته في تأليف بعض الكتب المتخصصة في 
اللسانيات الحاسوبية» والمدونات اللغوية وتطبيقاتها. عمل محكباً لدى عدد من الدوريات العلمية والمؤتمرات الدولية. 
أنشأ المدونة اللغوية لمتعلمي اللغة العربية» وأسس فريق معجم المفردات الشائعة لمتعلمي AUI‏ العربية ”شائع“. 
Kay, Martin (2003) Introduction. In: Mitkov, Ruslan (Ed.), The Oxford Handbook of Com-‏ -2 
putational Lnguistics. New York: Oxford University Press.‏ 
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ماساتشوستس للتكنولوجيا (MIT)‏ في «e VAY‏ ثم صدرت ile‏ علمية بعنوان 
الترجمة الآلية في 5 ۱۹١‏ م. أما مصطلح اللسانيات الحاسوبية نفسه فقد بدأ استعماله في 
منتصف الستينات )19608( ويرجح أن ديفيد هيز (David Hays)‏ هو أول من أطلق 
هذا المسمى على هذا المجال عندما كان عضواً في اللجنة الاستشارية لمعالحة اللغة Lf‏ 
في الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية. ثم أتى بعد ذلك عدد من 
المتخصصين الذين كان هم دور في ظهور هذا المجال مثل نعوم تشومسكي Noam)‏ 
(Chomsky‏ وجون كوك «(John Cocke)‏ وغيرهم. واليوم يعد هذا التخصص من 
التتخصصات ذات الأهمية المتزايدة لما له من دور كبير في التطور الحاصل في Jle‏ معالحة 
اللغة الطبيعية (Natural Language Processing)‏ والذكاء الاصطناعى Artificial)‏ 
1 إذ بات أحد الأسس المهمة في صناعة التطبيقات اا المستعملة 
في كثير من مظاهر ال حياة اليومية. 

ويعرف نيوقس اللسانيات الحاسوبية بأنها فرع عن علمي اللغة والحاسب» هيدف 
إلى تصميم ناذج رياضية للتراكيب اللغوية؛ للتمكن من معالجة اللغة آليا عن طريق 
الحاسبء كما يعرفه من وجهة نظر لغوية على أنه تشكيل للنظريات والناذج اللغوية 
أو تنفيذها على الآلة» ويرى أنه بإمكاننا النظر إليه على أنه وسيلة لتطوير نظريات لغوية 
جديدة بمساعدة الحاسب )2006 (Nugues,‏ ?'. 

ولقد شهد البحث في محال اللسانيات الحاسوبية تقدماً متسارعاً في الستوات القليلة 
الماضية» U‏ ساعد على بروز تطبيقات عملية استفادت من نتائج تلك الأبحاث بشكل 
مباشر وني مجالات شتى» لعل من أبرزها تطبيقات التخاطب مع الآلة المساة بتطبيقات 
المساعد الشخصى الذكى CIntelligent personal assistant)‏ والتى نرى انتشارها 
بين أيدينا (Siri) die uj‏ من شر 3$ أبل (o (Apple)‏ ناو Google)‏ 
(Now‏ من شركة جوجل | (Google)‏ وكورتانا (Cortana)‏ من شركة مایکروسوفت 
(Microsoft)‏ وأمازو ن إيكو (Amazon Echo)‏ من شر às‏ أمازون «(Amazon)‏ 
وعشرات الأنظمة المشابهة التي تجمع عدداً من مستويات المعالجة اللغوية في تطبيق 
واحد. ومن هنا تبرز أهمية وجود مدخل إلى اللسانيات الحاسوبية باللغة العربية» 


1- Nugues, Pierre M. (2006) An Introduction to Language Processing with Perl and Prolog. 
Berlin: Springer-Verlag. 
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لتعريف القارئ العربي بهذا المجال وببعض فروعه وتطبيقاته» وليكون تمهيداً لما يكتب 
بعده من مراجع متخصصة تتناول فروعه بتوسع أكثر. وهذا الكتاب موجه بالدرجة 
الأولى لطلاب الدراسات العليا في الجامعات» أو الراغبين في الاطلاع على هذا المجال 
من غير المتخصصينء إذ يقدم تعريفا لعدد من مجالات اللسانيات الحاسوبية وهي: 

Computational Phonetics الصوتيات الحاسوبية‎ e 

.Morphological Analysis التحليل الصرفي‎ o 

„Syntactic Parsing التحليل النحوي‎ o 

„Semantic Analysis التحليل الدلالي‎ o 

. Texts Analytics تحليل النصوص‎ e 

.Spelling Checker التدقيق الإملائى‎ o 

ol Je codi a ca dU T E ue p Jal,‏ کرد الط لبي رجا 
مع شرح المصطلحات قدر الإمكان» وتقريب المعلومات للقارئ بأمثلة واضحة تساعد 
على الفهم والتطبيق. وفيا يل عرض موجز لمحتويات الكتاب اعتماداً على الللخصات 
التي سترد لاحقاً في بداية كل فصل من فصوله. 

ففى الفصل الأول يتحدث منصور الغامدي عن الصوتيات الحاسوبيةء مبتدثاً 
ale Aelia)‏ ل eL all‏ لم Gas‏ إل cA pali sodali VA Sil p all‏ 
النطقية» الصوتيات الأكوستية» الصوتيات السمعية. وتحت كل فرع يورد مقدمة ثم 
يذكر التقنيات المتعلقة به من حيث الدراسة والبحث والتحليل. ولأن هذا العلم أساس 
لعدد من العلوم» فالفصل يذكر التطبيقات التقنية لعلم الصوتيات وخاصة في مجال 
التعرف الآلي على الكلام وتوليد الكلام آلياء والتعرف على المتحدث. مع الإشارة إلى 
المتطلبات التي تقوم عليها هذه التقنيات. 

في الفصل الثاني يتحدث عبدالعزيز المهيوبي عن التحليل الصرفي» مبتدئا بعرض 
موجز لخصائص الصرف العربي» ثم مفهوم التحليل الصرفي الآلي» وقواعد المعطيات 
المصاحبة للمحلل الصرفي. ينتقل بعد ذلك إلى الحديث عن مجموعة من الأسس المهمة 
لبناء محلل صرفي دقيق للغة العربية» ويقدّم نظرة تاريخية للتحليل الصرفي «VI‏ مع 
استعراض مجموعة من أهم المحللات الصرفية العربية» مشيراً لأهمية التطبيقات 
الحاسوبية للتحليل الصرفي. ينتقل بعد ذلك إلى الحديث عن مجموعة من الضوابط 
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والمحددات التى تساعد في بناء المحللات الصرفية» SU] Cie‏ إلى ضوابط ومحددات 
cM oa aaa e id 6‏ التي تواجه بناء محلل صرف دقيق لكلمات 
اللغة العربية ونصوصهاء وطرق عرض نتائجهاء وكيفية توصيف القواعد الصرفية 
لبناء المحلل الصرفي الآلي. ثم يشير في عجالة إلى أسباب قصور المحللات الإنجليزية 
عن استيعاب خصائص اللغة العربية» متحدثا بالتفصيل عن خطوات بناء المحلل 
الصرفي الآلي» ومتطلبات بنائه. 

وني الفصل الثالث يتحدث أحمد روبي عن التحليل النحويء فيقدم رؤية شاملة 
عن التحليل النحوي الحاسوبي في إطار تطبيقي» محاولاً الوقوف على منطلقات التحليل 
النحوي (التمثيل النحوي - النظرية النحوية - المحتوى النحوي) وأدواته في صورة 
مبسطة» بحيث تكون مدخلا مبسطًا للقارئ العربي» يمكن من UAE‏ فهم الصورة 
العامة لإطار التحليل النحوي الحاسوبي. وسعيًا لتحقيق هذه الغاية» فإنه يقف على 
قوام العملية النحوية/ التركيبية ودورها في بناء التطبيقات الحاسوبية المختلفة التي تناظر 
الأداء الإنساني؛ فيأتي الفصل في خمسة محاور رئيسية: تتضمن مقدمة يعرض من UNE‏ 
تأصيل طرق التوصيف النحويء ثم عرضًا لإرهاصات التحليل النحوي الحاسوبيء ثم 
أهمية التحليل النحوي الحاسوبي للدراسات اللغوية بصورة عامة وللغويات الحاسوبية 
أو معالجة اللغة الطبيعية بصورة خاصة. ويلي ذلك الخطوات الإجرائية اللازمة لبناء أية 
عملية تحليل نحوي حاسوبيء والتي يمكن تلخيصها في العناصر التالية على الترتيب: 
(النص الخام/ المدونة اللغوية - تجزئة النصوص - العنونة بالأجزاء الكلامية - الترميز 
بالعلاقات التركيبية)» وأخيرا يعرض الفصل بعض موارد التحليل النحوي المتاحة 
للغة العربية وكذلك تطبيقاته. 

في الفصل الرابع تتحدث إشراق الرفاعي عن التحليل الد لالي» إذيقدم الفصل نبذة 
تعريفية عن التحليل الدلالي» تشمل استعراضا لأهم المصطلحات المرتبطة بهذا المجال 
مثل المتضادات والمترادفات» إضافة للفرق بين المعنى الحرفي والمعنى العملى للنصوص» 
كا يشير القصل إل cell‏ البح المسشخدم في دراسة التحليل «Ja‏ إضافة dE‏ 
أبرز الموارد اللغوية المتاحة مثل شبكة الكليمات العربية (Arabic WordNet)‏ يتطرق 
الفصل فيا يلي ذلك إلى عدد من أبرز تطبيقات هذا المجال وهي: تحليل العواطف» 
وفك اللبس الدلالي» مع تعريف كل منهماء واستعراض أبرز ما نجز ce‏ من أبحاث 
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وتطبيقات. كا يتطرق الفصل إلى الحديث عن الكينونات كمفهوم مهم عند دراسة 
التحليل الدلالي» ويعنى بدراسة الكلمات المجردة والعلاقات e‏ بينها من حيث المعنى. 
يشير الجزء الأخير من الفصل إلى أبرز الجهود البحثية في Jle‏ التحليل الدلالي kè‏ بخص 
اللغة ci all‏ والتى endi‏ من قبل جمرعات to‏ شهيرة حول العامة uim‏ ب 
للقارئ الاطلاع على المخرجات البحثية الأحدث في هذا المجال. 

في الفصل الخامس يتحدث صلاح الناجم عن تحليل النصوص.ء فيتناول أهمية 
تحليل النصوص كتطبيق أسامي من تطبيقات المعالجة الحاسوبية للغة الطبيعية» وهو 
ساعد عل ساف و ادراغ محرفة als‏ من تصوصن Lia iu G3 ed Y iym‏ 
.(Unstructured Data)‏ يشير الفصل كذلك إلى التطور الكبير في مجال البيانات 
الضخمة (Big Data)‏ الذي أفرز كميات هائلة من البيانات النصية» ومنها على سبيل 
المثال لا الحصر مشاركات وحوارات وسائل التواصل «une VI‏ إذ يتطلب تحليل 
هذه البيانات إيجاد تطبيقات ومنصات تحليلية ولغات eid. i£ y‏ وخوارزميات 
(Algorithms)‏ متخصصة للتعامل مع هذا الكم BU‏ من البيانات النصية. وهنا تبرز 
i‏ تحليل النصوص كمجال بيني (Interdisciplinary)‏ يدمج die csi‏ أكاديمي 
أهمها علم الحاسوب. اللسانيات الحاسوبية» استرجاع المعلومات Information)‏ 
«(Retrieval‏ تحليل البيانات «(Data Mining)‏ تعلّم الآلة «(Machine Learning)‏ 
والإحصاء (Statistics)‏ يتحدث الفصل أيضاً عن أهمية البيانات الضخمة» 
ومستويات ومراحل تحليل النصوصء ثم ينتقل إلى الحديث عن المعالجة الحاسوبية 
للنصوص وخطواتهاء ثم يتناول بعض التطبيقات مثل تصنيف النصوصء وانتزاع 
المعلوماتء وتحليل المزاج العام. 

وفي الفصل السادس يتحدث وليد الصانع عن التدقيق الإملائي» فيستع رض أبرز 
التحديات التى تواجه مطوري المدققات الإملائية للغة العربية» إذ تعتبر اللغة العربية 
من اللغات ا في كثير من أنظمة التشغيل وأجهزة الحاسب JYI‏ والبرمجيات» 
وقد قامت cob AS‏ الشر كات العالمية بتطوير مدققات إملائية للغة العربية. ويعد تطوير 
مدققات إملائية عربية تحديا يواجه مطوري هذا النوع من التطبيقات بسبب اختلاف 
صيغ الإملاء زماناً ومكاناً. 

يُعرّجَ الفصل بعد ذلك على آليات اكتشاف الأخطاء الإملائية وإشكالياتها» ومن 
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ثم أبرز الطرق لتصحيح هذه الأخطاء الإملائية» كا يعطي نبذة سريعة عن بعض 
النظريات المتقدمة التي تستخدم في أبحاث تطوير المدققات الإملاثية» وبعض المراجع 
الأساسية التى قد تفيد القارئ. 


ختاماء أتقدم بالشكر الوافر - بعد شكر الله عز وجل - إلى القائمين على مركز 
الملك عبدالله بن عبدالعزيز الدولي لخدمة اللغة العربية» على ما قدموا لفريق التأليف 
من دعم متصل وتذليل للعقبات» في سبيل خروج هذا الكتاب في أتم صورة» ليكون 
مرجعا للمهتمين بهذا الميدان» وبداية للسالكين فيه من طلاب الجامعات وخصوصا 
طلاب الدراسات العليا. كا أتقدم بالشكر الجزيل لجميع المشاركين في تأليف فصول 
هذا الكتاب الذين قدموا خلاصة فكرهم» مع ما أبدوا من التزام ودقة في العمل» كل 
ذلك في سبيل تحقيق غاية الكتاب» وانتظام عقد موضوعاته. 


المحرر/ عبدالله بن يحيى الفيفي 


الرياض 
۱۷ ربيع الثاني EYA‏ ١ه‏ 
ayjfaifi@ gmail.com‏ 
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Laiti‏ الآول 


الصوتيات الحاسوبية 
أ. د. منصور بن محمد الغامدي'" 
ملخص البحث 

إلى فروع هذا العلم الثلاثة: الصوتيات النطقية» الصوتيات الأكوستية» الصوتيات 
والتحليل. ولأن هذا العلم علم أساس لعدد من العلوم» وحيث إن الكتاب عن 
التقنيات» فالفصل يذكر التطبيقات التقنية لعلم الصوتيات وخاصة في Jie‏ التعرف 
الآلي على الكلام وتوليد الكلام آليا والتعرف على المتحدث. والمتطلبات التي تحتاج 
ها هذه التقنيات من علم الصوتيات» حيث تشكل الصوتيات أساسا لها كعلم وتطبيق 

وإجازة لما ينتج من تقنيات» إضافة إلى مدى دقتها وملاءمتها للمستفيدين. 


-١‏ حاصل على درجة الدكتوراه في الصوتيات. له أكثر من ثمانين كتابا وبحثاً علمياً منشوراً. حاصل على خمس براءات 
اختراع. أشرف وشارك في أكثر من عشرين مشروعاً بحثياًء نتج عنها نظم حاسوبية وبرمجيات وخوارزميات وقواعد 
بيانات. أشرف على رسائل دكتوراه. حاضر في جهات متخصصة عن تطبيقات الصوتيات كحوسبة اللغة» وعيوب 
التخاطب» والترجمة» واكتساب اللغة ce MI‏ وتعلم اللغة الأجنبية. حكم أعمالا بحثية وإبداعية وبحوثا مقدمة للنشر. شارك 
في عدد من الميئات واللجان. عمل في قطاعات الدولة أربعاً وأربعين سنة؛ تقلد USE‏ عددا من المهام. حصلت بحوثه 
المنشورة على أكثر من خمسمئة استشهاد على موقع «قوقل سكو (m.ghamdi2@Qiyas.org) GY‏ 


sN V= 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقيا 
أو تداولها تجاريا 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجارياً 


الفصل الآول: الصوتيات الحاسوبية 


Y‏ المقدمة 
الصوتيات أحد فروع علوم اللسانيات ويشكل المستوى الأدنى من مستويات 
الدراسات اللغوية. حيث تكون المستويات الأعلى (علوم الدلالة والنحو والصرف 
والمعاجم) عقلية مجردة e‏ الصوتيات علم ملموس. فهو يتعلق بأصوات اللغة من 
حيث مخارجها وخصائصها الأكوستية وسماعها. وله ارتباط مباشر بعلم لساني آخر 
أعلى منه وهو الفونولوجيا phonology‏ الذي يشمل دراسة النظام الصوتي للغة 

وعلاقة الأصوات ببعضها وتأثير بعضها على بعض. 

فالفونولوجيا يحدد اللأصوات الأساسية لكل لغة أو مايعرف بالفونييات phonemes‏ 
e‏ فونيم .(phoneme‏ وتشكل فونيات اللغة ما يعرف بالنظام الصوتي sound‏ 
10. ويتكون النظام الصو من صوامت consonants‏ و صوائت „vowels‏ 
فنظام العربية الصوتي يحتوي على YA‏ صامتا (الجدول: )١‏ و صوائت هي: الفتحة 


-١‏ الفونيم هو أصغر وحدة صوتية تغير المعنى في كلمات اللغة. فالصوتان / س/ و / ص/ فونيمان مختلفان في العربية كا 
في كلمتي ”سد“ بمعنى حاجز الماء» و ”صد“ بمعنى أعرض. وهما ليسا كذلك في الإنجليزية» فلو نطقا في كلمة مثل seed‏ 
”بذرة“ لما غيرت في معناها. والصوتان /p/‏ و /b/‏ في الإنجليزية فونيمان مختلفان في كلمات مثل: pat‏ ”تربيتة“ و bat‏ 
”خفاش“ es‏ ليسا كذلك في العربية» فلو نطقا في كلمة مثل ”بات“ بمعنى أصبح» لما غيرت في معناها. 
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القصيرة (a) A‏ والطويلة ۸/: (Ca)‏ والضمة القصيرة U) V‏ والطويلة Y‏ 
Cu)‏ 207 القصيرة ۷ à‏ والطويلة uem d p p csl Cu) : NV‏ 
تُطبّق القوانين الفونولوجية فتتأثر بعض الأصوات نتيجة لوجودها في بيئة صوتية محددة 
كما في حال إدغام assimilation‏ اللام الشمسية في الصوت الذي يليها عند وجودها قبل 
الأصوات: / ث. ن» ذ» ظء deo em‏ ض» ر» ل» س» ز» ص» ش/ » كا في ”الثابت“ 
و ”الشابق“ (الغامدي وآخرون» 575١ه).‏ تتم العمليات الفونولوجية كغيرها من 
العمليات في مستويات اللغة العليا في الدماغ البشري» ومع إرسال الإشارات العصبية 
من الدماغ إلى الجهاز الصوتي يبدأ المستوى الصو phonetic level‏ حيث يمكن 
قياس الإشارة العصبية الواردة من الدماغ إلى عضلات الجهاز „vocal tract G pall‏ 

ثم متابعة حركة الجهاز الصوتي والأصوات اللغوية التي يخرجها. 

22-2 225 22 


الجدول ١‏ : نظام العربية الصوتي (الصوامت). الصفوف الرأسية تعبر عن خرج الصوت والأفقية عن 
كيفية خر وجه. #اشديد مفخم» رخو مفخم (الغامدي, 475 (CA V‏ 
يقدم هذا الفصل معلومات عامة عن علم الصوتيات والتقنيات المستخدمة 
لدراسته» |> هى مفتاح للحصول على معلومات دقيقة عله» والتى بدورها تشكل 
-١‏ الرموز المستخدمة هنا حسب الألفبائية الصوتية العربية والألفبائية الصوتية الدولية (بين قوسين)» لمزيد عن هذه 
الرموز (الغامدي» EYY‏ ه أ) 


Y‏ الجهاز الصوتي ما يقرب من مائة عضلة. 
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أساس حوسبة الصوتيات أو تطبيقاته الحاسوبية. بعد ذلك يتطرق الفصل إلى ثلاثة 
من أبرز التطبيقات في محال حوسبة الصوتيات وهي: التعرف JYI‏ على الكلام» وتوليد 
الكلام آلياء والتعرف على المتحدث آليا. هذه التطبيقات أصبحت مؤخرا ملموسة في 
حياة الناس اليومية خاصة الأول والثانى. 

ولا يتسم به العصر ال حالي من تقدم في تقنية المعلومات information technology‏ 
وشيوع تطبيقاتها applications‏ بين أفراد المجتمع على الإنترنت والحاسبات والأجهزة 
الكفية حتى لم يعد للإنسان غنى عنهاء فهي الرابط بينه وبين الآخرين وبينه وبين التطور 
المتسارع للمعرفة» فإن هذه التقنية قائمة على التطور المذهل الذي حدث في السنوات 
الأخير ة في اللسانيات الحاسو بية computational linguistics‏ على جميع مستوياتها 
من الدلالة والبراغماتية إلى الفونولوجيا والصوتيات. فأصبح بالإمكان الكتابة بجميع 
اللغات وكذلك عرض رموزها الكتابية وطباعتها. US‏ أصبح بإمكان الحاسبات معالجة 
نصوصها وحفظها واستعادتها وفهرستهاء بل وأبعد من ذلك الترجمة من لغة إلى أخرى 
وفهم النصوص وتلخيصها وأيضا توليد نصوص جديدة لمواضيع محددة. 

ومن الجدير بالذكر أن اللغة العربية من اللغات القلائل التي رموز كتابتها فونيمي؛ 
أي أن لكل فونيم رمز كتابي ”قرافيم“ خاص 2 فالصوت / ف/ يكتب (lo‏ هكذا 
OG"‏ هذه السمة قليلة الحدوث في اللغات الأخرىء فعلى سبيل المثال» فونيم اللغة 
الإنجليزية / [f‏ يظهر في الكتابة بعدة أشكال: «gh», «ph»‏ ,© كما في الكلمات: fast,‏ 
laugh, physics‏ تباعا. هذه السمة تساعد في أمو ر شتى من تعلم القراءة والكتابة 
وحتى توليد الكلام والتعرف عليه آليا إضافة إلى معالجة النصوص وتحليلها. 

". الصوتيات 

عرفت الدراسات الصوتية منذ القدم» ولكن أبرز دراسة عميقة ومفصلة كانت على 
يد الخليل بن أحمد الفراهيدي وتلميذه سيبويه (أبو بشر عمرو بن عثان بن قنبر) في 
القرن الثاني الهجري. ومن أبرز ما وصل إلينا منها كتاب «الكتاب» لسيبويه الذي قدم 
من خلاله وصفا دقيقا لأصوات اللغة العربية وقواعدها الفونولوجية C‏ ولم تكن هناك 
-١‏ تندر الإشارة للجهود العربية في جال الصوتيات في المراجع الغربية» كا هي الحال لجهود العرب في العلوم الأخرى 
التي ليس لها مكان ني المراجع الغربية» رغم حضورها الملموس في مفردات اللغات الأوربية كدليل واضح على أن الحضارة 


الغربية قامت على الحضارة العربية. من المراجع البارزة في تحليل كتاب سيبويه فيه| يتعلق بالصوتيات والفونولوجيا ما كتبه 
الدكتور عبدالمنعم الناصر في رسالته للدكتوراه )1985 .(Al-Nassir,‏ 
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إضافة تذكر من بعد ذلك إلا بعد الثورة الصناعية في أوربا في القرن الثاني عشر الهجري 
(أي بعد ألف سنة) حيث بدأت النهضة الأوربية وازدهرت معها كافة العلوم بها فيها 
الصوتيات» على سبيل JEL‏ ال هنغاري «وولفغانغ» Wolfgang von Kempelen‏ الذي 
صنع أول آلة نطق )1991 .(Ohala,‏ واستمر تطور علم الصوتيات كغيره من العلوم 
في العصر الحديث ليتأسس على قواعد علمية صلبة في| يتعلق بجمع قواعد البيانات 
ذات العلاقة بأصوات اللغة أو الدراسات والاستنتاجات مما مهد لتطبيقات عملية في 
حياة الناس كاكتساب أصوات اللغة (بالنسبة للأطفال كلغة col‏ وللكبار كلغة أجنبية)» 
وعلاج عيوب التخاطبء واختبارات اللغة» والتعرف على المتحدث» والتواصل مع 
الآلة صوتياء والتعرف الآلي على الكلام» وتوليد الكلام آليا. 

ينقسم علم الصوتيات إلى ثلاثة فروع هي: الصوتيات النطقية والصوتيات 
الأكوستية والصوتيات السمعية (الشكل .)١‏ ويتضح من اسم كل منها المجالات التي 
تعنى بها. ولعلنا نستعرض هذه الفروع بشيء من التفصيل. 


"^" wj 
الصوتيات الصوتيات الأكوستية | الصوتيات‎ 
النطقية السمعية‎ 


الشكل :١‏ فروع الصوتيات الثلاثة. 
١ , Y‏ الصوتيات النطقية 
يتابع علم الصوتيات النطقية articulatory phonetics‏ الإشارة العصبية بعد 
صدورها من الدماغ متجهة إلى عضلات الجهاز الصوتي التي تقدر SQ,‏ عضلة. 
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electrode حيث تدخل إبرة ہا جس‎ EMG والمعروفة اختصارا‎ Electromyography 
في العضلة لتحديد وقت تأثرها بالإشارة العصبية نما يسهل معرفة علاقة ذلك بإخراج‎ 
من عدد‎ Y كما في الشكل‎ vocal tract g gall صوت قيد الدراسة. ويتكون الجهاز‎ 
التى تتحكم فيها مجموعة من العضلات بناء على‎ speech organs من أعضاء النطق‎ 
ما يصلها من إشارات عصبية قادمة من الدماغ. هذه الأعضاء تتحكم في ثلاثة تجاويف‎ 
elal (الحلقي والفموي والأنفي) حيث تتحكم في شكل التجويفين الأولين وفي حارج‎ 
عبر التجاويف جميعها. ويتسبب التغيير في أشكال تجاويف النطق في إخراج أصوات‎ 
مختلفة ومتعددة تتجاوز المائتي صوت يستخدمها الإنسان للتخاطب مع الآخرين عبر‎ 
اللغات البشرية المختلفة.‎ 


e 
em 


الشكل Y‏ : أعضاء النطق في الجهاز الصوتي (الغامدي» Ca V EY‏ 
اعتمدت الدراسات السابقة للجهاز الصوتي على الأشعة السينية لدراسة حركة 
أعضائه أثناء الكلام وتحديد حجم التجاويف» LÍ‏ الآن magnetic resonance ol‏ 
imaging‏ أو ما تعرف اختصارا MRI‏ تقدم بيانات أكثر دقة ومزيدا من التفاصيل 
ومرونة في استخدام الحاسب لقياس الأبعاد والمساحات والأحجام كما في الشكل Y‏ 
.(Sorensen,et al. 2016)‏ 
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الشكل :Y‏ صورتان للرأس أخذت بجهاز 21181. الأولى على اليمين تظهر فيها اللهاة قد فتحت 

مجرى الهواء للخروج عبر التجويف الأنفي cuo‏ تظهر الصورة اليسرى انغلاق مجرى الطواء Nakai,)‏ 
Cet al. 2016‏ . 

ويوظف الجهاز الصوتي المواء في توليد الأصوات بطرق متعددة» أكثرها استخداما 
هو هواء الزفير؛ حيث تعترض أعضاء النطق elal‏ الخارج من الرئتين مسببة خروج 
الأصوات المطلوبة لكل لغة. ويوصف الصوت اللغوي حسب نطقه بمكان خروجه 
في الجهاز الصوتي place of articulation‏ وكيفية إخراجه manner of articulation‏ 
dad‏ 

الجهاز الصوتي موحد من حيث وظيفته وتشريحه لكل بني البشر رغم الاختلاف في 
الشكل والحجم من شخص إلى آخر ومن مجموعة إلى «s ul‏ إلا أن هذه الاختلافات 
لا تؤثر في مجمل نطق أصوات اللغةء فجهاز الإنسان الصوتي قادر على نطق أصوات أية 
لغة. إلا أن بعض الأجهزة الصوتية يتسبب حجم وشكل أعضائها في منح الكلام سمة 
أكوستية. فصغر الرقيقتين الصوتيتين» على سبيل المثال» عند النساء والأطفال تجعل 
ترددهما Jle‏ وهذا من أسباب تمييزنا لأصوت الأطفال والنساء والرجال. 

يضم الجهاز الصوتي الأعضاء المشار إليها في الشكل Y‏ حيث تعترض هواء الزفير 
الخارج من القصبة الموائية مولدة بذلك أصوتا عديدة. وأول هذه الأعضاء اعتراضا 
للهواء هما الرقيقتان الصوتيتان vocal folds‏ المحميتان بصندوق غضروفي يسمى 
الحنجرة co darynx‏ تتذبذبان بترددات مختلفة حسب طوله)ء فيتميز الرجال 


—YA-— 


إهداء من المركز 
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بتردد منخفض ٠٠١(‏ مرة في الثانية 5 0( والنساء بتردد عال )* * Y‏ مرة في الثانية 
تقريبا) والأطفال بتردد أعلى £9 مرة في الثانية تقريبا). وتؤثر طبيعة الكلام على 
تردد الرقيقتين الصوتيتين» فيزيد ترددهما عند التحدث بصوت dle‏ وينخفض عند 
التحدث بصوت منخفض للمتحدث نفسه. وتتميز الجمل الخبرية بانحدار ترددهما 
بين| الجمل الاستفهامية بتصاعد التردد. ويخرج من بين الرقيقتين الصوتيتين صوتان 
في العربية هما /ء/ » / ه/ . يلل الحنجرة من الأعلى التجويف الحلقى pharyngeal‏ 
cavity‏ حيث يمتد من الحنجرة إلى اللهاة في الأعلى. E do‏ الحلقى لسان 
المزمار epiglottis‏ الذي يخرج منه الصوتان Jela fe‏ عندما adeb uio‏ الخلقي 
pharyngeal wall‏ جد el gbl‏ عند خروجه من التجويف الحلقى مساران: الأول 
يؤدي إلى التجويف الأنفى nasal cavity‏ والآخر إلى التجويف .oral cavity iig‏ 
التجويف الأنفي هو التجويف الوحيد الثابت في حجمه وطوله وذلك لعدم وجود 
أعضاء متحركة داخلة ولثباته داخل إطار من العظام والغضاريف. تعمل اللهاة كبوابة 
للتجويف الأنفي» حيث تغلقه إذا ارتفعت فتمنع الهواء من المرور فيه» وتفتحه إذا 
انخفضت فيخرج el gbl‏ منه. ويخرج من الأنف صوتان في العربية هما / ن/ » Jel‏ 
Gl‏ التجويف الفموي فأكثر التجاويف مرونة وهذا تخرج معظم الأصوات منه. ومن 
lingua /tongue - Ja‏ الذي يرمز في كثير من اللغات إلى اللغة E‏ هذا 
sali D si oU‏ النحل آية »]٠١۳‏ + ومن o2; cog LM GE Lande‏ 
A ERATIK ats as Sog Al cade‏ [سورة الروم آية Y‏ ويخرج 
من اللسان وما يقابله من سقف الهم الأصوات الآتية: اللهاة ak lèl :uvula‏ 3 
/ ق/ ؛ الحنك اللين velum‏ إضافة إلى الشفتين lips‏ / و/ ؛ الحنك اللين: / ك/ eae‏ 
الصلب «hal :hard palate‏ بين الحنك الصلب واللثة :alveolar ridge‏ / ش/ » 
/ج/؛ اللثة والأسنان dal dal «lal tooth‏ /طلء hledal dol‏ 
/ ص/٠‏ / ل/» / ر/ ؛ بين الأسنان: | ث/» / ذ/» / ظ/ . العضوان الآخران المتحركان 
في التجويف الفموي هما الشفتان حيث تشكلان البوابة الخارجية للتجويف الفموي. 
ويخرج بينهما الصوتان / efe‏ / ب/ . وهناك صوت يخرج نتيجة التقاء الشفة السفل مع 
الثنايا العليا وهو/ ف/. 
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ما يلاحظ خروج مجموعة من الأصوات من مخرج واحد» فكيف تكون مختلفة؟ 
طريقة إخراج الصوت تجعل له خصائص أكوستية ختلفة. فمثلاء / ن/» Jof eha‏ 
/ط/ء ها المخرج نفسه ولكن: lol‏ يخرج من الآنف» /ت/ يخرج من الفم وهو 
مهموس وغير مطبق» / د/ يخرج من الفم وهو مجهور وغير das‏ / ط/ gj‏ من 
الفم وهو مهموس ومطبق. 

يشكل تردد الرقيقتين الصوتيتين التردد الأساس للكلام fundamental frequency‏ 
وهو منخفض نسبيا ce Ere ee)‏ يتفاوت حسب المتحدث وطبيعة الكلام)» 
إلا أن التجاويف التي تعلو الحنجرة (الحلق والفم والأنف) تنتج رنينا resonance‏ 
داخل التجويف مولدا ما يعرف بالتوافقيات 1698 وهي تكرار منتظم لتردد 
الرقيقتين الصوتيتين قد يتجاوز العشرة آلاف هيرتز -(Auditory Neuroscience)‏ 
وتختلف التوافقيات من حيث الشدة amplitude‏ فالأماكن التى تكون فيها الشدة عالية 
تسمى نطق )2:5 formants‏ حيث تلعب دورا مهما في التفريق بين الصوائت. 

ja الصو تات ال‎ ١ 

يخرج الصوت من الجهاز الصوق على هيئة موجات صوتية تنتشر في الوسط المحيط 
بالمتحدث لتصل إلى إذن السامع. ويسمى العلم المختص بالموجات الصوتية للكلام 
بالصوتيات الأكوستية .acoustic phonetics‏ ولأن الموجات الصوتية لا تشاهد 
بالعين» كان من الصعب دراستها علميا حتى ظهر اللأوسلوسكوب oscilloscope‏ 
في نباية القرن التاسع عشر (الشكل 5). وتعرض شاشة الأوسلوسكوب ترددات 
الموجات الصوتية ببعدين: الزمن والتردد. فيمكن حساب تردد الرقيقتين الصوتيتين في 
adt cp‏ كنا يمكن يعرفة لوج all i d‏ 43 دل هى مةك ادر عن الشركة 
الرنانة أم مركبة كالصادرة عن الجهاز الصوتي. 
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الشكل £ : جهاز أوسلوسكوب (Wikimedia)‏ 


ولأن جهاز الأوسلوسكوب لا يعرض تفاصيل دقيقة عن الموجة الصوتية» ظهر 
à‏ منتصف القرن العشرين جهاز spectrograph SLL‏ حيث أمكن رؤية الإشارة 
الصوتية بثلاثة أبعاد: الزمن والتردد وشدة كل 7 22 ما سهل على الباحثين والمطورين 
دراسة الأصوات اللغوية وتطوير النظم الإليكترونية والحاسوبية ذات العلاقة بها 
JS 53D)‏ 0( 
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الشكل ه: جهاز المطياف (Universiteit Leiden)‏ 
ويعرض جهاز المطياف Lab Lo)‏ للموجة الصوتي spectrogram‏ يبين المحور 
الأفقي فيه (الزمن)» والرأسي (التردد). كا يقدم الرسم الطيفي معلومات قيمة تحويها 
الموجة الصوتية منها: تردد الرقيقتين الصوتيتين (الخطوط الرأسية)ء وترددات النطق 
الرنينية (الخطوط الأفقية)» وشدة الموجة (السواد). ولا يزال الرسم الطيفي يستخدم 
إلى الآن في الدراسات الصوتية وكثير من التطبيقات منها التعرف على هوية المتحدث. 


الشكل ": رسم طيفي لموجة صوتية. المحور الأفقي للزمن والرأسي للتردد. 
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وظلت الرسوم الطيفية الناتجة عن استخدام جهاز OSUL‏ أساس الدراسات 
الصوتية الأكوستية إلى أواخر القرن العشرين» إذ مع تطور الإلكترونيات والبرمجيات 
أصبح جهاز المطياف الذي كان يحتاج لغرفة مجرد برمجيات على الحاسب أو تطبيق على 
الأجهزة الكفية. ويبين الجدول Y‏ بعض برمجيات تحليل الموجات الصوتية المفتوحة 
التي يستخدمها مؤخرا دارسو موجات الكلام وكذلك مطورو النظم الحاسوبية ذات 
العلاقة بها حيث يستطيع الباحث تحميلها والاستفادة منها مباشرة» أو الدخول على 
شفرة البرنامج لتطويره أو التعديل عليه لخدمة أهداف الدراسة والبحث. كا أن هناك 
نظم حاسوبية أخرى ليست مجانية من أشهرها MATLAB‏ الذي له تطبيقات واسعة في 
مجالات الهندسة والدراسات والتحليل والاستنتاج» وكذلك Computerized Speech‏ 
Lab‏ ويتكون من برمجيات software‏ إضافة إلى hardware ske‏ وهو خخصص لتسجيل 
وتحليل الموجات الصوتية الخاصة بالكلام. 


الرابط الإلكتروني 


University of 


http://www.fon.hum.uva.nl/praat/ PRAAT 

Amsterdam 

Royal Institute 

http://www.speech.kth.se/wavesurfer/ WaveSurfer 
of Technology 
London Global 
http://www.phon.ucl.ac.uk/resource/sfs/wasp.php . . WASP 

University 


http://www-Ol.sil.org/computing/sa/index.htm? | SIL Interna- | SIL Speech 
ga-GA1.2.1982728125.1471423724 tional Analyzer 


الجدول Y‏ اسماء ومواقع تحميل بعض برمجيات تحليل الإشارة الصوتية الشائعة والمفتوحة. 


غالبا ما تعرض برمجيات تحليل الإشارة الصوتية الموجة على شكلين: موجة صوتية 
mjs Waveform‏ طيفي spectrogram‏ إضافة إلى تفاصيل دقيقة إما على شكل رسوم 


-١‏ تطبع على ورق باستخدام إبرة كهربائية تسخن بناء عل شدة الصوت فتعلم على الورق منتجة رسا طيفيا. 


عات 


إهداء من JA‏ 

pros 
بيانية أو رقمية لخصائص موجة صوتية في فترة محددة» حيث يمكن تحديد موجة صوت‎ 
لغوي ليعرض البرنامج خصائص ذلك الصوت وما يحويه من ترددات ونطق رنينية‎ 
وغيرها. وتمكن هذه البر امج‎ fundamental frequency وتردد أساس‎ 5 
الدارس من التعديل على خصائصها الأكوستية كالحذف والإضافة والتقطيع والترميز‎ 
ale غل الدارسين معرفة الكث ر عن الأشارة الصوقة وما‎ ail وقد سهلت هذه‎ 
التي بموجبها يستطيع‎ acoustic cues من خصائص وأسرار كالمشعرات الصوتية‎ 
maed ين الصدوت‎ Ses ها كا فى حالة‎ ead cl So MIT Je الانسان التعرف‎ 
(Singh, et al. 2016) بين الصوت وناطقه‎ p والمجهور وكذلك‎ 


| ضير‎ irvirSurfer 14.3 ^ 
Ek pet Imam wow ep 
OSW apl اء هع ذا‎ a a «مم اعد يور‎ 

vi عر‎ 5m goo x 
| ود سحت‎ MEME 3 
7 اناا‎ ١18 3 


١ FH 
1 
ا‎ 
£ 

9 


B a lee 


الشكل ۷: واجهات بعض برمجيات تحليل I‏ جات الصوتية الشائعة وا مفتوحة. 
وتشكل الصوتيات الأكوستية أساسا مهما للتطبيقات التقنية ذات العلاقة بالكلام 
البشري كالتخاطب عن بعد (نظم الاتصالات كاهاتف والاتصالات اللاسلكية) 
التي تعتمد على الخصائص الفيزيائية للكلام لنقل كلام مفهوم وواضح للمستخدم 
بأقل التكاليف في استخدام الطاقة والتطوير والصناعة التقنية. وكذلك في تطوير نظم 

حاسوبية معقدة للتعرف الآلي على الكلام وتوليده آليا والتعرف على المتحدث. 
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Y, Y‏ الصوتيات السمعية 
يبدأ عمل هذا التخصص من ملامسة الموجات الصوتية للأذن الخارجية إلى تعرف 
الدماغ على الأصوات والتمييز بينها. وتشكل الأذن العضو الأساس في هذا العلم 
(الشكل (V‏ وتقوم بعض أعضاء السمع كالقناة السمعية والعظيمات في الأذن الوسطى 
بتضخيم ترددات محددة (ها علاقة مباشرة بموجات الكلام) عشرات المرات مما يسهل 
على الإنسان التعرف على الكلام عن طريق الموجات الصوتية التي يسمعها. ويمكن 
للأذن البشرية ساع الموجات التي يقع ترددها بين ۲۰ هيرتزو ٠١‏ كيلوهرتز وهو نطاق 
أعلى بكثير من تردد موجات الكلام الصوتية التي تقع بين ٠٠١‏ هيرتز و١٠‏ كيلوهرتز 


Ja di 
J sali 
8 السندان‎ 
القنوات الهلالية‎ 
القوقعة‎ 
`> Qe 


الشكل ۸: الأذن البشرية وما تحويه من أعضاء سمعية (الغامدي» 575 Ca‏ 

استفاد الباحثون من خصائص الأذن البشرية لتطوير تقنيات تلبى حاجة الإنسان 
كأنظمة تكبير الصوت في الأماكن العامة والتخاطب عن بعد Jadi‏ الصوتي 
والاتصالات» بحيث يكون الصوت - خاصة ما يتعلق بالكلام - واضحا با فيه 
الكفاية ليفهم السامع ما نطقه المتحدث. وتقوم هذه التقنيات على دراسات صوتية 
للكلام تبين الموجات المهمة للسامع والأخرى الأقل أهمية. فمثلا نظم الاتصالات لا 
تنقل جميع ترددات الكلام بين المتحدث والسامع» ذلك OS‏ نقلها جميعا مكلف عليها 
من حيث الطاقة والتقنية. هذا تقتصر على الترددات الأقل من أربعة آلاف CX uh‏ 
وتحذف الترددات الأعلى منها. هذا النطاق كاف للإنسان لفهم الكلام ولو أن جودة 
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الموجة الصوتية ليست كما هي في حال سباع المتحدث مباشرة. ولكنها توفر على نظم 
الاتصالات أكثر من fV‏ من تكلفة موجات صوت الكلام الكاملة. 

Y‏ . تطبيقات وتقنيات ذات علاقة بالصوتيات 

أسهمت التقنيات الحديثة في تطوير تطبيقات عديدة ذات علاقة بالكلام» فكانت 
البداية عندما SS‏ الإنسان من تحويل طاقة الموجة الصوتية إلى أنواع أخرى من الطاقة؛ 
ميكانيكية في البداية US‏ في الفونوقراف phonograph‏ (المعروف في السعودية ”بكم“)» 
ثم إلى طاقة كهربائية )2001 .(Robjohns,‏ حيث صنع لاقطا صوتيا (ميكرفون) يحول 
الموجة الصوتية التي تصل إليه إلى طاقة كهربائية. كانت هذه البداية في غاية الأهمية إذ 
ناء عليها تمكن الإنسان من تطوير تقنيات أكثر تعقيدا. فطور نظم الاتصالات (موجة 
صوتية (المتحدث) > طاقة كهربائية (CEU)‏ > موجة صوتية (المستمع)). وتمكن 
بهذه التقنية أيضا من حفظ الموجة الصوتية ليستعيدها فيا بعد وقت ما شاء (موجة 
صوتية > طاقة كهربائية > Bb‏ مغناطيسية > طبعة مغناطيسية يمكن حفظها). كا 
أنه تمكن أيضا من بث موجات الكلام الصوتية عبر الأثير إلى الناس ليلتقطوها بجهاز 
المذياع الذي يعيدها إلى موجات صوتية يمكن ساعها. كانت هذه التقنيات بداية مهمة 
dus‏ قادمة» حيث تكن الإنسان مع ناية القرن العشرين من التحول إلى التقنية 
الرقمية حيث تحول الموجة الصوتية إلى أرقام يمكن التعامل معها بسهولة في الحفظ أو 
الإرسال والاستقبال أو التحليل والتشفير. 

هناك ثلاث تقنيات من أكثر التقنيات ذات العلاقة بالكلام التي تشكل تحديا 
كبيرا أمام الباحثين والمطورين وذات أهمية كبيرة للمستخدمين بجميع شرائحهم» 
هي : توليك الكلام آليا speech synthesis‏ أو ctext-to-speech‏ التعرف QI‏ على 
الكلام automatic speech recognition‏ أو speech-to-text‏ التعرف على المتحدث 
speaker recognition‏ أو .speaker identification‏ هذه التقنيات الثلاث مهمة في 
التعامل مع الآلة» فقد كان حلم الإنسان أن يتمكن من التخاطب مع الجاد وها هو 
الحلم قد اقترب كثيرا بل وتحقق إلى درجة شبه مقبولة. هذه التقنيات الثلاث مترابطة 
إذ تشكل أساس التخاطب مع الآلة. فالتعرف على المتحدث هو البصمة أو المفتاح 
الذي يوصل المتحدث إلى بياناته ويسمح له بتنفيذ أعماله مستخدما صوته» والتعرف 
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على الكلام وسيلة لإيصال الأوامر والطلبات وإدخال المعلومات للآلة» وتوليد الكلام 
وسيلة لاستجابة الآلة للإنسان صوتياً. الأنموذج في الشكل ۸ مثا للتخاطب مع الآلة؛ 
فهو مكون من خمسة نظم حاسوبية» إلا أنه قد لا تتوفر جميع هذه النظم فيكتفى بواحد 
منها. فعلى سبيل JEU‏ فتح الباب بالبصمة الصوتية لا يتطلب إلا نظاما واحدا (التعرف 
على المتحدث). وكذلك استخدام الكفيف لنظام قارئ الكتاب الآلي لا يتطلب سوى 
نظام الناطق „JYI‏ 


الشكل 4: أنموذج متكامل للتخاطب مع الآلة. الإطار المتصل للنظم المشار إليها في هذا الفصل» 
الإطار المتقطع لنظامي حاسب آخرين. 

كا أن تحويل الموجة الصوتية إلى كهرباء كانت قفزة في تاريخ التقنيات فإن تحويل 
الموجات الصوتية إلى حروف وكلمات يعتبر قفزة في تقنية البرمجيات. لأنه لا يمكن 
التعامل مع موجة أصوات الكلام من الناحية اللغوية» ولكن يمكن التعامل مع النص 
بطرق عدة منها: الترجمة الآلية فالترجمة الآلية لا تتم مباشرة من موجة صوتية بلغة 
ما إلى موجة صوتية للغة أخرىء بل هي: موجة صوتية > نصوص > ترجة آلية > 
نصوص > موجة صوتية. وكذلك العمليات المعقدة الأخرى ذات العلاقة باللغة كفهم 
اللغة والتنقيب في النصوص وتلخيصها وفهرستها وتصنيفها وتقويمها وتوليدها آلياء 
كل هذه العمليات وغيرها الكثير تتطلب توفر نصوص لغوية. لهذا OB‏ التعرف JYI‏ 
على الكلام في غاية LAYI‏ ليس فقط لتطبيقات مباشرة ولكن لأنه يمثل بنية أساسية 
لعمليات أخرى أكثر تعقيدا. 

تحويل الموجة الصوتية إلى كهرباء تتطلب مهندساً كهربائياً ليقوم بالمهمة» أما تحويل 
الموجة الصوتية إلى نص فيتطلب متخصصين من علوم شتى (مبرمجين» مطورين» 
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cus‏ أصواتيين) إضافة إلى قواعد بيانات وأدوات حاسوبية. يضاف إلى ذلك 
التعقيدات المصاحبة لموجات أصوات الكلام التي من أهمها تباينها من متحدث إلى آخر 
بل للمتحدث الواحد. فكل مرة ينطق شخص كلمة محددة تكون لها موجة صوتية مختلفة 
مهما تكرر نطقها. عدم الثبات هذا يشكل تحديا للمبرمجين والمطورين. ورغم التقدم 
الذي وصلت إليه تقنيات التعامل مع الكلام» إلا أن الطريق لا يزال طويلا للوصول 
إلى نظم حاسوبية يكون أداؤها قريبا من أداء الإنسان حتى تكون طبيعية مقبولة من 
مستخدميها. ورغم ذلك فقد ظهرت نظم مقبولة إلى حد بعيد من المستخدمين لعل 
من أشهرها في الوقت الحاضر نظام (Siri Wikipedia) g pe)‏ الذي gu‏ حملا على 
أجهزة أبل الكفية الآن وهو نظام للتخاطب مع الجهاز يقوم بالوظائف التالية: 

التعرف JYI‏ على الكلام بتحويل الموجة الصوتية إلى نص. 

معالجة النص وتحليله في حاولة لفهم المطلوب cas‏ تحديد الرد على المطلوب في 
النص إما بتنفيذه كأوامر» أو البحث في ذخيرة CEU‏ أو في الإنترنت لإيجاد مقاربة 
للمطلوب والعودة بنتائج المقاربة. 

تنفيذ أوامر محددة كالاتصال بشخص معلوماته متاحة على الهاتف» أو تحويل 
نصوص نتيجة المقاربة إلى كلام. 

ويعمل نظام ”سيري“ حاليا بعشرين لغة منها العربية» وبعضها بأكثر من ES‏ 
كالإنجليزية التي تحمل تسع لكنات با فيها الأسترالية والأمريكية والكندية والبريطانية. 

١ Y‏ التعرف الآلي على الكلام 

التعرف JYI‏ على الكلام هو تطوير نظام حاسوبي يتولى تحويل الموجة الصوتية إلى 
نص. فالموجة الصوتية المعروضة في الشكل ۸ هي ل كلا سيعلمون» (متجهة من اليسار 
لليمين) (CS‏ يلاحظ فالموجة الصوتية متصلة ببعضها دون انقطاع سواء بين الأصوات 
أو بين الكلمتين. فلكى يتعرف الحاسب على هذه الموجة» عليه أولا: معالحة الإشارة 
E tuna AE Ea 3 ca‏ 
عل الموجة الضوتية» LIU‏ استخلاصن اللتصائص الأكوستية للأصرات بين الفواصل؛ 
رابعاً: مقارنتها بالخصائص الصوتية المخزنة لديه» خامساً: اختيار المقارب لكل صوت 
حسب أعلى احتمالية aS‏ ليصل إلى نتيجة أن هذه الموجة مكونة من الأصوات الآتية: 
كد 4 ل ل 4۸:س INS IN‏ ع ل IN‏ م 7 Co:‏ تحويل هذه الرموز إلى 
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النص المقروء ”كلا سيعلمون“. عندها تكون مهمة نظام التعرف الآلي على الكلام قد 
انتهت. إلا أن كل مرحلة من هذه المراحل تشكل تحديا كبيرا للمتخصصين من مبر يجين 
وباحثين ومطورين. 

ولتنفيذ المراحل السابقة فإن نظام التعرف على الكلام المطلوب تطويره يحتاج إلى: 

(Y)‏ قاعدة بيانات صوتية لكلام عدد من المتحدثين تكون موجاته الصوتية مقطعة 
segmented‏ ومر 3 transcribed š‏ 5( في الشكل ٠١‏ . وهناك عدد من قواعد البيانات 
للغة العربية LDC ku‏ و WestPoint Arabic‏ وبنك الأصوات الماتفية لمتحدثين 
سعوديين )2012 Alotaibi, et al.‏ . 

Hidden) استخدام أدوات حاسوبية كأدوات أنموذج ماركوف المخفي‎ (Y) 
من‎ acoustic mode أكو ستي‎ di تقوم ببناء أنمو‎ (Markov Model Toolkits HTK 
وتقوم‎ «sound features قاعدة البيانات باستخلاص السات الأكوستية لكل صوت‎ 
لاحقا بمقارنة ما يصلها من كلام بها هو خزن لديا في الأنموذج الأكوستي للوصول‎ 
إلى النص المقابل للموجة الصوتية.‎ 

CY)‏ معالجة النص المستخلص ليكون نصا لغويا سلي|. 


الشكل :٠١‏ موجة صوتية للكلمتين ”كلا سيعلمون“ )2007 .(Alghamdi, et al.‏ 
يستخدم الباحثون والمطورون عددا من الآليات والأدوات للرفع من كفاءة نظم 
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عدد الفونيمات التي تعرف عليها النظام إلى ue]‏ عدد الفونيمات في ملفات الاختبار. 
وقد وصلت في بعض البحوث المنشورة مؤخرا إلى دقة .(Nahar, et al. 2016) 7A‏ 

يواجه مطورو أنظمة التعرف JYI‏ على الكلام عدداً من التحديات من أهمها 
التباين في أصوات المتحدثين واختلاف صوت المتحدث الواحد من وقت لآخر. كا 
أن الخلفية الصوتية للمتحدث قد تتسبب في إرباك النظام بسبب عدم قدرته على فصل 
الموجات الصوتية الصادرة من المتحدث من الأصوات المنتشرة في الخلفية. ىا يصعب 
على هذه الأنظمة معرفة ما وراء الكلام كحالة المتحدث النفسية والعاطفية وما يريد 
فعلا من كلامه في حالات مثل: ”نعم“ التي قد يقصد بها المتحدث الإجابة على سؤال 
أو التعجب أو الإنكار. فهذه الإمكانات لا يزال ينتظرها المزيد من البحث والتطوير 
لإضافتها لأنظمة التعرف QNI‏ على الكلام. 

۳ توليد الكلام آليا 


#بدف هذه الأنظمة إلى تحويل النص المكتوب إلى موجات كلام مسموعة. وغالبا 
ما تقوم هذه الموجات بناء على: )١(‏ الو ضوح «intelligibility /comprehensibility‏ 
وهو مدى قدرة الإنسان على فهم كلام النظام بمعنى تحويل الموجات الصوتية إلى النص 
الذي نطقه النظام à‏ الأصل )2011 (Y) (Chang,‏ الطبيعية naturalness‏ وهي 
مدى قرا من الكلام الطبيعي الذي يولده جهاز صوت الإنسان. هذا التقويم يضعه 
مطورو هذه الأنظمة نصب أعينهم عند العمل على تطوير نظام لتوليد الكلام آليا. كا 
أن المستخدمين يأخذون هذين المعيارين في الحسبان عند الشراء أو الرغبة في استخدام 
نظام من هذا النوع. 

هناك عدد من الطرق لتوليد الكلام آليا لعل من أكثرها شيوعا: )١(‏ توليف الموجات 
المجزأة cconcatenated speech synthesis‏ وتعتمد هذه ii hll‏ على استخلااص 
وحدة صوتية speech unit‏ لكل صوت يمثل فونيا في اللغة من كلام طبيعي» وعند 
توليد الكلام تستدعى الوحدات الصوتية التي تقابل النص المطلوب نطقه» وتدمج 
مع بعضها لتمثل صوتا متصلا. (Y)‏ التوليد VI‏ للكلام باستخدام النطق الرنيني 
formant based synthesis‏ وهذه الطريقة لا تحتاج إلى قواعد بيانات صوتية» وإنا 
edid‏ الزن اللا يقار cecidi‏ ا ا ical‏ 
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المطلوبة للنص. (7) التوليد الآلي للكلام بناء على قواعد بيانات صوتية لأحد المتحدثين 
«data driven synthesis‏ ويستخدم المطورون هذه الطريقة أدوات حاسوبية كأنموذج 
ماركوف المخفي» والشبكات العصبية ) 2016 (neural network Wu, et al.‏ وقد 
شاع انتشار الطريقة الأخيرة نظرا للنتائج التي تعطيها من حيث قربها من الصوت 
الطبيعي. وتعتمد هذه الطريقة على قواعد بيانات صوتية سجلت ورمزت بعناية لأحد 


.CAlmosallam, et al. 2013) المتحدثين‎ 
Uf التعرف عل المتحدث‎ ۳ 


تحمل الموجات الصوتية الصادرة عن الجهاز الصوتي مشعرات خاصة بالأصوات 
اللغوية (الفونيمات) وتحمل أيضا معلومات أخرى غير لغوية منها حالة المتحدث 
النفسية/ المزاجية (سعيد» حزين» غضبان» ...)» وكذلك البصمة الخاصة به» فا مستمع 
قادر على التمييز بين المتحدثين» فيتعرف على المتحدث المعتاد على سماع صوته إذا كان 
ضمن CS cuum odd‏ أنه يميز dall‏ البالغين من ضغار السن» وكذلك 
صوت الرجل من الأنثى. ولوجود تطبيقات عديدة لخاصية التعرف على المتحدث» 
ظهرت محاولات Li‏ ليستفيد منها OLI‏ في حياته اليومية. 

كغيرها من النظم الحاسوبية ذات العلاقة بالكلام البشري» فإن أنظمة التعرف على 
المتحدث تحتاج إلى قواعد بيانات صوتية لمتحدثين. كا نها تحتاج لأدوات حاسوبية 
لبناء النظام ومن أشهر هذه الأدوات أنموذج خليط غاسيون( Gaussian mixture‏ 
(model Islam, et al. 2016‏ حيث يقوم الأنموذج ببناء أنموذج أكوستي خاص 
بكل متحدث في قاعدة البيانات الصوتية لكي يتعرف عليه من خلال صوته عندما 
يعرض عليه صوت جديد لنفس المتحدث. وكا في نظم التعرف على الكلام فإن 
قواعد البيانات الصوتية تنقسم إلى قسمين: (Y)‏ مجموعة التدريب «training set‏ 
وهي الجزء من القاعدة المستخدم في تدريب النظام لبناء أنموذجه الأكوستي ويشكل 
عادة /9٠‏ من القاعدة. (Y)‏ مجموعة الاختبار testing set‏ وهى ispat‏ الملفات 
نع القاعدة المخد قي شري النظاء رمد كقاءة النظام عل de edu‏ 
أصوات المتحدثين في مجموعة الاختبار. وينشر المطورون نتائج بحوثهم بعرض نسب 
التعرف التي وصلوا إليهاء فهي معيار جودة ما توصلوا إليه. 
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ومن المنتجات المتاحة في أسواق البرمجيات ذات العلاقة بالتعرف على المتحدث: 
Open Sesame. Nuance VocalPassword. Authentify. VoiceVault. 1AM‏ 
.BioValidation. VoiceBiometrics Group. Voice Print System‏ حيث 
تستخدم هذه الأنظمة في تطبيقات شتى فهي تعمل عمل المفتاح الذي يمكن الدخول 
به على الحاسبات الشخصية أو ال هواتف الذكية أو حساب على الإنترنت أو فتح أبواب 
البيت أو الغرف وما شابه ذلك. هذه الأنظمة تستجيب فقط لصاحب الصوت المبرمج 
عل ذلك 

وللتعرف على المتحدث تطبيقات أخرى لما علاقة بالأدلة الجنائية» إذ يمكن 
استخدامه كقرينة عند حدوث جريمة ووجود تسجيل لصوت له علاقة بها. حيث 
يقوم الخبير الصوتي باستخدام نظم التعرف على المتحدث إضافة إلى خبرته في تحليل 
الرسوم الطيفية O‏ 

؟:.الخاتمة 

قدم هذا الفصل عرضا عاما لتخصص الصوتيات بفروعه الثلاثة: الصوتيات 
النطقية والأكوستية والسمعية. التي تشكل الخلفية العلمية للتطبيقات التقنية ذات 
العلاقة بالكلام. فتطورت تقنيات الاتصالات في نباية القرن التاسع عشر الميلادي كا 
وكيفا حتى أصبحت وسائل الاتصال الصوتي بين الناس في كل مكان تقريبا (45/ من 
المناطق السكنية على مستوى العالم مغطاة بشبكة اتصال Cul‏ الجوال عام 5١١7م‏ 
ATU)‏ (. وظهرت تطبيقات التواصل الصوتي بين الإنسان والآلة وأصبحت قابلة 
للاستخدام إما بشكل كامل أو بشكل جزئي (ب) في ذلك التعرف على الكلام وتوليده 
والتعرف على المتحدث) مع بقاء الحاجة قائمة لمزيد من التحسين والتطوير U‏ 

كثير من الإنجازات العلمية والتقنية في عصرنا الحالي قائمة على تعدد التتخصصات 
multidiscipline‏ با في ذلك نظم الاتصالات والتعامل الصوتي مع الآلة» ولهذا فإن 
فرق العمل البحثية والتطويرية في عالمنا العربي تحتاج إلى هذا التكامل في عملها. وهذا 
يتطلب أن تكون التخصصات الأخرى ذات العلاقة حاضرة في تعليمنا الجامعي حتى 


-١‏ الغامدي c‏ منصور بن محمد (571١ه)‏ ”البصمة الصوتية“: أمد بداية التصويت أنموذجا. المجلة العربية للدراسات 
الأمنية والتدريب. .118-89:557.7١‏ 
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يكون المتخصص في مجال ما ملا بالتتخصصات ذات العلاقة بتخصصه. فطالب اللغة 
العربية مطلع على علاقة الإحصاء والحاسب والهندسة الكهربائية في تخصصه»ء وكذلك 
المتخصصين الآخرين في الإحصاء والحاسب واهندسة الكهربائية على دراية بأهمية 
متخصصي اللغة العربية في تخصصهم. هذا التكامل يخدم التخصصات المترابطة ويرفع 
من كفاءة مخرجاتها. 

وإذا كان العرب من أسس علم الصوتيات قبل ما يقرب من ٠٠٠١‏ سنة» وهم 
OYI‏ بعيدون عن مستجدات هذا العلم» فإن جامعاتنا وأقسام اللغة العربية فيها أحوج 
ما تكون لتطوير مساراتها التعليمية لتواكب التطور التقني والعلمي مما يسهم في توفير 
طاقات بشرية قادرة على تقديم إضافة في Jle‏ تخصصاتهم على المستوى des Al‏ 
مستوى اللغة العربية التي طورت تقنيات لخدمتها من خارج بيئتها ما أضر بها. 

التحليل والمعالجة الآلية لنصوص وأصوات اللغة أصبحت مع كل فرد تقريبا 
في مجتمعنا الذي لا يستطيع الاستغناء عن تطبيقاتها سواء على الحاسب الشخصي أو 
الأجهزة الكفية. هذه التقنيات لا زالت في بداياتها» وهناك عمل مستمر لتطويرها نظرا 
للكم الكبير من المحتوى اللغوي المتاح الآن على الإنترنت» ولحاجة المستخدم لمزيد من 
الأدوات للبحث فيه والاستفادة منه وإثرائه والحضور المؤثر فيه. 
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مصطلحات عربية/ إنجليزية 


iecit‏ لر نة 
تطبيقات 
pex‏ 
لسانيات حاسوبية 
صامت 
السات المميزة 
نطاق رنيني 
jaa‏ اال 
تردد أساس (تردد الرقيقتين الصوتيتين) 
قرافيم 
توافقيات 
هيرتز (دورة كاملة لموجة صوتية) 
تقنية المعلمات 


إنجليزي 
Allophone‏ 
Alveolar ridge‏ 
Amplitude‏ 
Applications‏ 
Assimilation‏ 
Computational linguistics‏ 
Consonant‏ 
Distinctive features‏ 
Formant‏ 
Frequency‏ 
Fundamental frequency‏ 
Grapheme‏ 
Hard palate‏ 
Harmonics‏ 
Hertz‏ 
Information technology‏ 


Intelligibility 


عمد 
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Qo 
الألفبائية الصوتية الدولية‎ 

تعرف على لغة 
لسان 

مستوى لغوي 

لسانيات/ لغويات 

شفتان 
صرف 
طبيعية 


أوسولوسكوب (جهاز لعرض الموجة 
الصوتية) 


صوت 
فون 
علم الصوتيات 
مستوى فونتيكي / صوتي 
فونوقراف (بكم) جهاز تسجيل قديم 
قوانين فونولوجية 
علم الفونولوجيا 


رئين 
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إنجليزي 
International Phonetic Alphabet‏ 
Language identification‏ 
Lingua/tongue‏ 
Linguistic level‏ 
Linguistics‏ 
Lips‏ 
Morphology‏ 
Naturalness‏ 
Oscilloscope‏ 
Phone‏ 
Phoneme‏ 
Phonetics‏ 
Phonetic level‏ 
Phonograph‏ 
Phonological rules‏ 
Phonology‏ 


Resonance 
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gS 
تقطيع (الموجة الصوتية)‎ 
دلالة‎ 
صوت‎ 
puer 
تعرف على المتحدث‎ 
كلام (الموجات الصوتية اللغوية)‎ 
تحليل الكلام‎ 
معالحة الكلام‎ 
على الكلام‎ di تعرف‎ 
جهاز المطياف‎ 
رسم طيفي‎ 
نحو/ قواعد لغة‎ 
توليد آلي للكلام‎ 
" 


ترميز (وضع الرمز LU‏ | للموجة الصوتية) 


إنجليزي 
Segmentation‏ 
Semantics‏ 
Sound‏ 
Sound system‏ 
Speaker verification/identification‏ 
Speech‏ 
Speech analysis‏ 


Speech processing 


Speech-to-text/Automatic speech 
Recognition 


Spectrograph 
Spectrogram 
Syntax/Grammar 
Text-to-speech/speech synthesis 
Tooth 
Transcription 
uvula 


Velum 
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عربي إنجليزي 
OUR y‏ صوتيتان Vocal folds‏ 
جهاز صوق Vocal tract‏ 
صضائت Vowel‏ 
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الفصل الثاني 


التحليل الصرفي 


د. عبدالعزيز بن عبدالله المهيوبي" 


يُعالج هذا المبحث قضيّة مهمة من قضايا معالجة الصرف العربي حاسوبياًء وهي 
(التحليل الصرفي الآلي للغة العربية)» وقد تناوها الباحث في البداية بعرض موجز 
لخصائص الصرف العربي» وانتقل منها إلى الحديث عن مفهوم التحليل الصرفي الآليء 
وقواعد المعطيات المصاحبة للمحلل الصرفي. كما اقترح الباحث مجموعة من الأسس 
المهمة لبناء محلل صرفي دقيق للغة العربية. كا قدّم نظرة تاريخية للتحليل الصرفي JYI‏ 
وعرض لمجموعة من أهم المحللات الصرفية العربية. وتطرق لأهمية التطبيقات 
الحاسوبية للتحليل الصرفي. 
-١‏ أستاذ اللغويات الحاسوبية المساعد في جامعة الإمام محمد بن سعود الإسلامية. درس الدكتوراه في قسم علم اللغة 
التطبيقي بمعهد تعليم اللغة العربية. له عدة أبحاث منشورة حول معالحة اللغة العربية آلياً. شارك في العديد من المشروعات 
البحثية» كمشروع تعليم اللغة العربية عن بعدء ومشروع إعداد اختبار كفاية لغوية في اللغة العربية للناطقين بغيرها U^ s‏ 
مشروعان لغويان تفاعليان بين عمادة التعلم الإلكتروني والتعليم عن بعد ومعهد تعليم اللغة العربية بجامعة الإمام محمد 


بن سعود الإسلامية» عضو هيئة تحرير مجلة اللسانيات العربية وأمينهاء صاحب موقع اللسان العربي على الإنترنت http://‏ 
.www.lisan2.com‏ مهتم بتقنيات التعليم والتصميم التعليمى والتقنى (s99scom(g)hotmail.com).,‏ 
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وانتقل الباحث بعد ذلك إلى الحديث عن مجموعة من الضوابط والمحددات التي 
تساعد في بناء المحللات الصرفية» UU] Cs‏ إلى ضوابط ومحددات شكليّة ودلالية. 
ولم يغفل الباحث الحديث عن المشكلات التي تواجه بناء محلل صرفي دقيق لكلمات 
اللغة العربية ونصوصهاء وطرق عرض نتائجهاء وكيفية توصيف القواعد الصرفية 
لبناء المحلل الصرفي الآلي. وأشار في عجالة إلى أسباب قصور المحللات الإنجليزية 
عن استيعاب خصائص اللغة العربية» وتحدث بالتفصيل عن خطوات بناء المحلل 
الصرفي الآلي» ومتطلبات بنائه. وانتهى الباحث إلى أن النجاح في تطوير تطبيقات 
حاسوبية للتحليل الصرفي يتوقف على مدى وضوح النظرية اللغوية التي يتبناها مطورو 
المحللات الآلية» ومدى قدرتها على تحليل الكلمات والنصوص تحليلاً صحيحاً. 
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الفصل الثاني: التحليل الصرفي 


BUT‏ ظهور اليل الأول للحواسيب في عام TARTZ‏ وصلة الحواسيب باللغات 
الطبيعية تزيد وتتطور ”وذلك لسبب أساسي وبسيطء وهو كون اللغة تجسيد لما هو 
جوهري في الإنسان» أي نشاطه الذهني بكل تجلياته» في الوقت نفسه الذي تتجه فيه 
الحواسيب نحو محاكاة بعض وظائف الإنسان, وقدراته الذهنية“'. وقد أولت الأمم 
المتقدمة أهمية كبيرة في عصر الرقمنة لمعالجة لغاتها الطبيعية بواسطة الحاسوب. $y‏ 
هذا الأمر علينا دراسة لغتنا العربية حاولين توصيف قواعدهاء وميكنتها بالحاسوب» 
آلياء فمن د الأربعينيات وا للحاو لات مستمرة لتخوير قراعد اللغاث الطبيعية من الشكل 
الوصفي الأدبي إلى الشكل العلمي الدقيق» والذي يمكن برمجته حسب الإمكانيات 
التي يوفرها الحاسوب.... وتتوفر الآن لغات برمجة عالية المستوى تتسم lo‏ بطلق عليه 
الذكاء الاصطناعيء الذي يجعل الحاسوب يستقبل» ويحلل» وينفذ ما يعطى Oa]‏ 
-١‏ نبيل علي» اللغة العربية والحاسوب ( دراسة بحثية )» تعریب» د. ط» ۱۹۸۸ م» ص5 .١١‏ 


-١‏ يُنظر: عبده ذياب العجيلى» الحاسوب واللغة العربية» منشورات جامعة اليرموك- عمادة البحث العلمى والدراسات 
العلياء الأردن» د طء Moe ge ١1957‏ 
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SE‏ اللغات الطبيعية بمراحل لفهم الكلام» أهمها: التحليل الصرفي - وهو 
موضوع اهت|منا هنا - والتحليل المعجمي؛ والتحليل Potest euis CAII‏ 
والعربية لغة قابلة للمعالجة الحاسوبية» |5 تملك نظاماً خاصاً يجعلها أكثر قابلية FE OY‏ 
حاسوبياًء وتوفر اللغة العربية مجالات كثيرة لتناولها حاسوبياً على اختلاف مستوياتهاء 
Ca y‏ الصرفية؛ LN‏ لغة ذات نظام دقيق تركيبياًء Yag‏ ومعجمياً»””. لقد أثبتت 
اللغة العربية أنها من أكثر اللغات قابلية لاستخدام الحاسوب في معالجتها آلياً؛ «لأنها 
تجمع بين كثير من الخصائص اللغوية المشتركة مع اللغات الأخرىء فأبجديتها -مثلاً- 
xe codd‏ ضرفة كالإسبائية والقتلندية» سيت يقابل كل خرف ضرا LS duel‏ 
Uil‏ ليست مقطعية كاليابانية» حيث رموز الأبجدية عبارة عن مقاطع يتكون كل منها 
من صامت (حرف) يتبعه صائت (حركة) مثل: ١ماء‏ كي» فو) فالأبجدية العربية رغم 
كوخا فوئيمية أساسا Li‏ تتضمن m‏ ذات طبيعة مقطعية ee‏ : الا 885 

وتتعرض لغتنا العربية هجوم كبير» ورَمي بالقصور والعجز عن مواكبة التطور» 
وذلك بهدف تدمير اللغة التي يتعبد بها أكثر من مليار مسلم» ناهيك عن كونها الدعامة 
الأساسية. والمعبر الحقيقى للقوة التى تستند إليها الحضارة العربية» والتراث الإسلامى. 
s ls‏ هجر Lalo‏ هو GL eo.‏ ا LI‏ ادا adl‏ ` 

«وعلم الصرف من أهم العلوم العربية قديأً وحديثاً؛ فلا يمكن لنحويء أو لغوي» 
أو معلم» أو طالب الاستغناء عنه؛ لآنه أساس العربية» وميزانهاء به تتولد الكلهات*» 
وبه يتم الاشتقاق» كاسم الفاعل» واسم المفعول» والصفة المشبهة» وصيغة المبالغة 


-١‏ يستخلص المحلل الدلالي معاني الكلمات استناداً إلى سياقهاء ويحدد معاني الجمل استناداً إلى ما يسبقهاء وما يلحقها 
من جمل. 

Al see أو غير مؤكد, ومعلوماً أو‎ das ge يحدد المحلل النحوي صيغة الفعل في الماضي والمضارع والأمرء وكونه‎ -Y 
ومبنياً أو معرباًء وعلامة كل منهماء ظاهرة أو مقدرة» حرفاً كانت أو حركة» ويبيّن ضمائر الرفع أو النصب التي أسند إليها‎ 
الفعل» كا يبيّن المحلل النحوي حالة الاسم من حيث الإعراب والبناء» وعلامة كل منهماء أمّا الحرف فيبيّن المحلل سابقته»‎ 
ولاحقته» ووظيفته الإعرابية» وعلامة بنائه.‎ 

-Y‏ مازن الوعر» دراسات لسانية تطبيقية» دار طلاس» دمشق» ط۰۱ ce ۱۹۸٩۹‏ ص۳۷۷. 

- سعيد أحمد بيومي» أم اللغات -دراسة في خصائص اللغة العربية» والنهوض بها-» uM‏ 7١٠٠م‏ ص9 .٠١‏ 

5- أنواع الكلمات في اللغة العربية: جذور بدون إضافات» وجذور تضم سوابق فقط» وجذور تضم لواحق فقط» وجذور 
تضم سوابق ولواحق» وجذور تضم أواسط فقط» وجذور تضم أواسط وسوابق فقط» وجذور تضم أواسط ولواحق 
فقط» وجذور تضم أواسط وسوابق ولواحق. 
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وغيرهاء وبه يُعرف الصحيح من المعتل» والمجرد من المزيد والأوزان المختلفة» وبه 
تُعرف الأسماء تعريفاً وتنكيراًء وجنساً وعدأ ناهيك عن أنه يقي اللسان من الوقوع في 
الخطأء ويرشده إلى الصواب» ويصحُح القلم من الزلات» وتتكئ عليه الحقول اللغوية 
المختلفة» الصوتية» والنحوية» والتركيبية» والمعجمية» والدلالية"». 

«والصرف هو رابطة العقد لعناصر المنظومة اللغوية» فهو ركيزة الفونولوجي. 
ومدخل النحوء وأساس تنظيم المعجم» وفوق هذا كله فهو خط المواجهة الساخن 
لالتقاء مباني اللغة libus s‏ ويعد الصرف في اللغة العربية مصدر التوسع اللغوي 
با يوفره من وسائل عديدة لتكوين كلمات جديدة» وإعادة تحليل تلك الكلات» «كما 
يعد الصرف العربي وضعاً Ces‏ لإبراز ثنائية التحليل والتركيب”» وذلك نظراً لكون 
js‏ منهما صورة منعكسة من الآخر بصورة لا تتوافر في الفروع اللغوية الأخرى)”". 

وتتسم اللغة العربية باطّراد نظام صرفهاء وظهور أثره داخل منظومتها اللغوية «لذا 
فهو مدخل أسامي لوصف النظام الشامل للغة العربية» وتفسير الكثير من ظواهرهاء 
وتحديد أسلوب معالجتها CIT‏ ويُعد التحليل الصرفي إحدى مراحل معالجة اللغات 
الطبيعية cC‏ ويدخل في الكثير من التطبيقات اللغوية» مثل: ميكنة المعاجم» وضغط 
النصوصء وتشكيلهاء وتشفيرهاء وتحليلهاء وتمييز الكلام» وتوليده» وتصحيح 
الأخطاء الإملائيةء والترحمة الآلية. 

وأكاد أجزم أن لمعالجة الصرف CIT‏ دور حيوي في جميع الأمور المتعلقة بتناول اللغة 
العربية حاسوبيّاً ومعلوماتياً؛ حيث تعد ميكنة العمليات الصرفية بالنسبة للغة العربية 
مدخلاً أساسياً وقاس) مشتركا لمعظم نظمها SI‏ حيث يزعم الدكتور «نبيل Cle‏ 
«أن مدى نجاحنا في تعريب نظم المعلومات والمعارف» يتوقف بالدرجة الأولى على 
-١‏ محمود مصطفى عيسى خليل» إسناد الأفعال إلى الضمائر في ضوء اللسانيات الحاسوبي- ماجستيرء كلية الدراسات 
العلياء qe Y * Y cos) ME‏ ص٥٤‏ . 
7Y‏ نبيل علي» اللغة العربية والحاسوب ( دراسة بحثية )» تعریب» dois‏ ۱۹۸۸م e‏ ص47 7. 
Y‏ وهي الثنائية التي يوصف من BAE‏ كثير من الظواهر اللغوية في الوقت نفسه الذي Jod‏ فيه أحد المفاهيم الأساسية 
في تصميم نظم المعالحة الالية للغات. 
- ينظر: نبيل علي» اللغة العربية والحاسوب ( دراسة بحثية )» تعريب» د.ط» ۱۹۸۸م c‏ ص EV‏ 5-1 7. 
5- المرجع السابق » ص58 7. 
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ما نستطيع أن نحققه على جبهة OUG pall‏ ويقصد الدكتور «نبيل علي» هنا الصرف 
بمعناه الواسع: مبناه ومعناه» تصريفه وتركيبه» تحليله وتولیده» اطراده وشذوذه. 

وحتى نتمكن من تحليل اللغة العربية نحتاج إلى معرفة مفرداتهاء وطريقة تركيب 
تلك المفردات في سياقات للحصول على جمل مفيدة. كذلك نحتاج إلى معرفة معاني 
تلك المفردات» وطرق al‏ في الكلام. 

كما أن الصرف هو المسؤول عن بنية مفردات RUE‏ تحليلاً وتوليداً. ويتلقى الصرف 
مدخلاته في اللغة العربية من ثلاثة مصادر» حيث تتسم المنظومة اللغوية بالتعاسك الشديد 
بين عناصرهاء وهذه المصادر هي: المعجم: حيث يغذي الصرف بجذور المفردات» أو 
جذوعهاء والدلالة: حيث تحدد المعنى الصرفي المراد صياغة الكلمة في قالبه» والنحو: 
حيث يعيّن الوظيفة النحوية للمفردة داخل الجملة» وحالتها LG eI‏ 

.١‏ خصائص الصرف العربي” 

تتسم اللغة العربية بخاصية الاشتقاق الصرفي المبني على أنماط الصيغ» إذ te]‏ 
تتميز بالاطراد الصرفي المنتظم الذي أدى بالبعض إلى وصفها بالجبرية (نسبة إلى ele‏ 
الجبر) بدرجة تقترب من حد الاصطناع. كا تتميز اللغة العربية بالتعالق الشديد بين 
مستوياتهاء حيث يتعالق المستوى الصرفي مع المستوى الصوتي» فيعتمد الصرف اعتاداً 
كبيراً على نتائج علم الأصوات عند الحديث -مثلاً- عن الإعلال والإبدال.» كا أن 
النحو لا يتخذ لمعانيه مباني من أي نوع إلا ما يقدمه له الصرف من المباني» وهذا هو 
السبب الذي جعل النحاة يجدون في أغلب الأحيان أنه من الصعب أن يفصلوا بين 
الصرف والنحوء فيعالجون كلاً منهها علاجاً منفصلاً» ومن هنا جاءت متون القواعد 
مشتملة على مزيج من هذا وذاك» يصعب معه إعطاء ما للنحو للنحوء وما للصرف 
للصرف»'*. وقد ارتبطت عملية الكشف على المعاجم بعملية التحليل ci pall‏ علاوة 
على ذلك فالتماسك المعجمي ممثلاً في الاشتقاق. وكذلك في العلاقات الدلالية بين 


YAV oe » المرجع السابق‎ -١ 
YAA »۰ المرجع السابق ۱۹۸۸م‎ -۲ 


-Y‏ عبدالعزيز بن عبدالله المهيوبي» بناء خوارزمية حاسوبية لتوليد الأفعال في اللغة العربية وتصريفها - دكتوراه” معهد 
تعليم اللغة العربية - جامعة الإمام محمد بن سعود الإسلامية» 477 اه ص8١١.‏ 


. ٠۷۸ص‎ p 1495 تمام حسّان» اللغة العربية معناها ومبناهاء دار الثقافة» المغرب»‎ -٤ 


es 
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المفردات المشتركة في الصيغة الصرفية الواحدة» هو نتيجة طبيعية لشدة el‏ بين 
الصرف والمعجم. 

وسنركز عند حديثنا عن خصائص الصرف العربي على تلك النواحي ذات الصلة 
بمعالجته UT‏ حيث تعد معالجة الصرف العربي Uf‏ مطلباً أساسياً XS‏ عمليات تحليل 
النصوص المكتوبة والمنطوقة» وفهمها وتوليدهاء علاوة على أنه أساس لا غنى as‏ 
لميكنة المعاجم واسترجاع المعلومات وتحليل مضمون النصوص. حيث يتميز الصرف 
العربي بعدة خصائص من أهمها: 

-١‏ وضوح مسار عملية الاشتقاق (الانتقال من الجذور إلى المشتقات الفعلية). 

-Y‏ اطرّاد التصريف في العربية» باستثناء حالات نادرة. 

-Y‏ ميل الصرف العربي لتركيب الكلمات بالإضافة» وكرهه لتكوين الكلمات من 
خلال المزج والاختصار. 

٤‏ - انتظام بنية الكلمة العربية لثبوت رتبة عناصرها (الصرف- نحوية). 

ه- شدة التداخل بين الصرفء والفونولوجي من حيث تعدد قواعد الإبدال 
والإعلال» وعمليات التغيير (الصرف-صوتية) الأخرى. 

1 - قلة عدد جذور الأفعال وكثرة عدد فروعها. 

- أن الاشتقاق في العربية مبنى على الأناط الصرفية C‏ حيث تتعدد هذه الأنماط 
عفدي ندا SU‏ مر ر 

- محورية مفهوم الجذر في العربية كعنصر ربط معجمي ودلالي. 

؟. الحاسوب ومحاكاة تفكير الإنسان 

سعى علاء اللسانيات الحاسوبية إلى بناء تطبيقات وأدوات للتحليل الصرفي 
الحاسوبي؛ cia.‏ محاكاة التفكير الإنساني في تحليل كلمات ونصوص اللغات الطبيعية 
من النواحي الإدراكية والنفسية. ولكن هل IESE‏ من ذلك؟ الجواب: لاء ON‏ علماء 
اللسانيات الحاسوبية لم يتمكنوا من بناء محلل صرفي متكامل يحاكي تفكير الإنسانء 


-١‏ النمط الصرفي:عبارة عن قالب يشمل الحركات وحروف الزيادة ومواضع حروف الجذر بتسلسل ورودها داخل 
القالب. 


و 
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على الرغم من كل المحاولات الجادة التي DAS‏ لتحقيق هذا الحدف. محاولين «استكناه 
العمليات اللاإرادية التى تحدث في العقل البشري التى يمكن من UAE‏ إعطاء 
co sad‏ القذرة عل في اللغة الطبيعية» وتخليلهاء وإعادة deris]‏ وكيقية تشكيلها 
في العقل البشري» O‏ 

.Y‏ التحليل الصرفي 

«يقصد بالتحليل الصرفي الآلي للكلمة في اللغة العربية «ربط كلمات النص بالعناصر 
الصرفية الأولية التي ل تكريتهاة وكذاك pdl‏ دون اعبار مو "M9‏ 
فيتم في التحليل الانتقال من الكلمة إلى جذرها الأصلي؛ أي أن الحاسوب يعالج 
الكلمات العربية المشكولة جزئياًء أو كلياًء أو غير المشكولة» فيصف ما يطرأ عليها من 
eus‏ زيادة أو نقضاتك أو إعلذلاء أو إبدالآء أو إدغاماء أو قلبا dle gi 29 e‏ 
وميزانها الصرفي» وسابقتها (أو Cg ea‏ ولاحقتها (أو لواحقها)» وحالتها 
الأعرابية» وذلالتهاة ... فإذا احقوت الكلمة اراد تحليلها عل حروف غير مشكولة: 
وضع الحاسوب الحركات الممكنة لها اعتماداً على بيانات X E‏ ومن المعلوم أن J=‏ 
الكلمة من الشكل يجعلها متعددة الأشكالء ومن ثم المعاني» مادامت مستقلة عن سياق 
SP cei‏ 

«فكلمة (وجد) مثلاً يمكن أن تكون لا الإمكانيات التالية: 

وَجَدَه وَجَدَه AES de‏ ... = أفعال / وَجْدٌ - اسم / XPRESS‏ ... = حرف 
عطف+أفعال / A5‏ = حرف عطف+اسم. 

ومع ذلك فالكلمة المشكولة إذا عولجت مستقلة عن سياق النص» فلا يمنع شكلها 


-١‏ ناد الموسىء العربية نحو توصيف جديد في ضوء اللسانيات الحاسوبية» المؤسسة العربية للدراسات والنشر» بييروت» 
ط۱ ۲۰۰۱م ص۷٥.‏ 

Y‏ 7 يحيى هلال» التحليل الصرفي للعربية» وقائع مختارة من ندوة استخدام اللغة العربية في ا لحاسب الآلي في الكويت» عّان» 
دار الرازي» Ye‏ 

“- السوابق مجموعة من الحروف. والأدوات التي تسبق الكلمة» وتؤدي إلى تغيير معناهاء أو وظيفتها النحوية. 

4 - اللواحق مجموعة من ا حروف التي تضاف إلى آخر الكلمةء فتغير معناهاء أو وظيفتها النحوية. 

4- يُنظر: مروان البواب» ومحمد الطيّان» أسلوب معالجحة اللغة العربية في المعلوماتية (الكلمة - الجملة)» استخدام اللغة 
العربية في المعلوماتية. 


t=‏ هت 
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من إمكانية اشتراكها في الاسمية والفعلية» أو الفعلية والحرفية» فمن أمثلة الحالة الأولى 
كلمة QD‏ فهي اسم في نحو قولنا: g‏ يزيد من الغرفة. وفعلٌ في نحو قولنا: يزيد 
الله في خلقه ما يشاء. ومن أمثلة ال حالة الثانية كلمة (أن). 

وهذا يعني أن على الحاسوب أن يعالج الكلمة عند تحليلها على ul‏ فعلٌ واسمٌ 
وحرف» وأن يعطي جميع الإمكانيات المحتملة هاء مع مراعاة الحالات التي تحدد 
نوعهاء فالكلمة المنونة -مثلا- لا تكون إلا اسمأ. وبعد ذلك يقوم الحاسوب باختيار 
الإمكانية المناسبة التي تتوافق مع سياق OY ual‏ 

JII المحلل الصرفي‎ .٤ 

هو تطبيق حاسوبي يقوم باستخلاص العناصر الأولية لبنية الكلمة في اللغة العربية» 
ويحدد سماتها الصرفية» والصرف صوتية» والصرف نحوية؛ فيقوم المحلل الآلي بالكشف 
عن جذر الكلمة» 5 5 Us‏ الصرفيء Des s‏ ما يطرأ عليها من تغيير بالزيادة أو النقصان» 
والإعلال. والإبدال» والإدغام» والقلب» ويوضح ما يلحقها من سوابق» ولواحق» 
وزوائد» بالإضافة إلى تقسيم الكلمة إلى اسم» أو فعل» أو حرف» وتقسيم الاسم إلى 
جامد» أو مشتق» ومذكرء أو مؤنث» ومفرد أو مثنى أو He gg‏ 

ويضم المحلل الصرفي مجموعة من قواعد المعطيات: هي قواعد معطيات معجمية 
لأوزان الكلمات العربية المستعملة» وقواعد معطيات لأساء ce MI‏ وقواعد معطيات 
للأخطاء الإملائية» والنحوية الشائعة في نصوص اللغة العربية. 

ه. توأمة النحو والصرف في المعالجة الآلية 

التداخل الكبير بين المستويين اللغويين الصرفي والنحوي في اللغة العربية «أوجب 
Ces‏ آلياً بأسلوب متداخل» فهناك تداخل مستمر بين الصرف والنحو Us‏ في بداية 
عملية التحليل الصرفي الآلي للكلمات والجمل» ويستمر حتى نهايتها»”". فالمستويات 
اللغوية في اللغة العربية رغم تباينها فهي «متداخلة متكاملة دون تفاضل أو تمايز» فهي 


-١‏ عبدالعزيز بن عبدالله المهيوبي» بناء خوارزمية حاسوبية لتوليد الأفعال في اللغة العربية وتصريفها - دكتوراه' معهد 
تعليم اللغة العربية - جامعة الإمام محمد بن سعود الإسلامية» EPT‏ ١ه‏ ص17 -/171. 


-Y‏ هدى آل cab‏ النظام الصرفي للعربية في ضوء اللسانيات الحاسوبية ”مثل من جمع التكسير"» رسالة دكتوراه؛ الجامعة 
الأردنية» ١٠٠٠م Yge‏ 


كت :8 
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visitar E is‏ اللخ tJ dod‏ وک diodes‏ وتنا ا 
أجزائه شرايين» وأعصاب قد تكون متناهية الدقة» إلا أنها تجعل سلامة عضو تعتمد 
على سلامة عضو آآخرء بل حياته COOL‏ فالصرف يعتمد على الأصوات من iiy‏ 
وعلى النحو من جهة أخرىء فالعلاقة بين المستويين الصرفي والنحوي وطيدة» lei‏ 
توأمان يصعب الفصل بينهما. 

*. أهمية التحليل الصرفي 

تتجلى في المحلل الصرفي أهم خصائص اللغة العربية في مجال المعالجة الحاسوبية» 
فيتاح عن طريق المحلل الصرفي توليد جميع الكلمات التي يمكننا اشتقاقها من جذر 
معين» كا نستطيع من خلاله رد (el‏ كلمة مشتقة إلى جذرهاء أو أصلها الذي تعود 
إليه. كما يستطيع المحلل بعد الكشف عن جذر الكلمة توليد الأسماء المشتقة من الفعل 
المجرد» أو المزيد» ويولد مزيدات الفعل الثلاثي بحرف وبحرفين وبثلاثة أحرف» 
ills‏ مويلاف القعل الا برف de uas‏ وهف le‏ بيضوت الكلية مق 
حالات الإعلال» أو الإبدال» أو الهمز» أو التضعيف. 

ney الأساين‎ ides لكات اللعة العريية‎ a colis id 
للتطبيقات الحاسوبية اللغوية الأخرىء إذ تستفيد منها بشكلء أو آخر» ولكتها تصبح‎ 
حيث يقف المحلل‎ b أساسية بالنسبة لتطبيقات البحث والفهرسة» فهي تطبيق مباشر‎ 
الصرني في مكان الصدارة بوصفه التطبيق الفاعل والسريع للمساعدة في الوصول إلى‎ 
الكلمات المطلوبة عن طريق إعادة الكلمة المشتقة إلى جذرهاء والتعرّف على الصور‎ 
الصرفية ها. كا يستخدم المحلل الصرفي في الترجمة الآلية» واسترجاع البيانات» ”فيتولى‎ 
)... المحلل ربط المفردات المختلفة للصيغ» مثل (كتب» الكتبء يكتبونء كاتبون» كتبتٌ‎ 
التي يمكن استرجاعها تحت الجذر )3 ت ب) بالإضافة إلى إمكانية استرجاع الكلمات‎ 
المختلفة حسب صياغاتها المتفاوتة» مع ما يتصل مها من سوابق أو لواحق””".‎ 

كا تبرز أهمية المحلل الصرفي عند التعامل مع النصوص العربية الكبيرة» مثل 
القرآن الكريم» وموسوعات الحديث النبوي على الحاسوب» فيكفي على سبيل المثال 
-١‏ نبيل علي» اللغة العربية والحاسوب ( دراسة بحثية )» تعريب» د.ط» ۱۹۸۸م » ص 4٠07‏ . 
=Y‏ علي السليمان الصوينع» استرجاع المعلومات في اللغة العربية» مطبوعات مكتبة الملك فهد الوطنية» السلسلة الثانية» 


.١5 ١ ص‎ REGALI 
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أن تستخدم للبحث في القرآن الكريم جذراًء مثل «س ل te‏ فيستدعي المحلل جميع 
الآيات القرآنية التي وردت بها مشتقات هذا لجذر» مثل: (آسلم» سلام» سالمون» 
سليم c‏ مسلمونء الإسلام ..إلخ) 

ويعد المحلل الصرفي إحدى الدعائم الأساسية التي يقوم عليها مشروع خدمة السنة 
النبوية» فحاجتنا للبحث - على مستوى الجذر- في الأحاديث التي تضم عدداً كبيراً 
من الألفاظ تتضاعف مع كثرة البحثء وتعدد أهدافه)”'' » كا يمكن للمحلل الصرفي 
دعم التشكيل الآلي للكلمات الخالية من التشكيل» حيث يعطي مجموعة من الخيارات 
لتشكيل الكلمة داخل النص. ويساعد في التدقيق الإملائى للنصوص العربية؛ حيث 
يكتشف aal‏ الإملائي» ويقترح البدائل الصحيحة المحتملة» فا محلل الصرفي عندما 
لا يكتشف الساق السليم للكلمة» والصيغة الصرفية التي يجوز انطباقها عليه» فإنه Jud‏ 
الكلمة خاطتة» ثم يقدم عدة احتمالات لتصويب الكلمة الخاطئة» عن طريق توليد 
احتهالات صحيحة» بحيث تكون أقرب ما تكون للصيغ الصرفية السليمة. 

كا تدعم تطبيقات التحليل الصرفي محركات البحث في الإنترنت؛ حيث يمكننا 
البحث عن كلمة أو جملة أو مجموعة كلمات بحث مطابق» أو باللواصق» أو على مستوى 
الجذرء فإذا ردنا البحث عن كلمة (رأى) وکل ما يرتبط بها من كلمات داخل صفحات 
ل يي unie ast‏ ل O‏ 

من الكلمات التي لا تشترك في بداياتهاء أو dele‏ ولكنها تشترك في الجذر. مثل 
(نری» یریکم» أرناء يرون تر أرني» رأيتموه» أراكم» رأيت» أراك» ليريه» فترى» يرواء 
أرأيتكم, ليريهاء ترونہم» تراني» سأریکم» رأوا..إلخ. 

۷. الهدف من بناء محللات صرفية آلية للغة العربية 

إن ادق ون اء الات ال د هو يداه 2131 لقوية ن الان ت مو 
مشابهة الإنسان في كفايته» وأدائه اللغويين؛ «ليكون قادرا على تحليل نصوص اللغة 
العربية» es s‏ فيكتشف الأخطاء الإملائية عن طريق معرفة النظام الكتابي للغة 
العربية» ويحلل الصيغ الصرفية» ويتعرفها في سياق الكلام»”''. 
-١‏ محمود عوض المراكبي» تطويع تقنية المعلومات لخدمة العلوم الشرعيةء السجل العلمي لندوة استخدام اللغة العربية 
في تقنية المعلومات» الریاض» 19197 p‏ ص M'*‏ 


- مسفر ماس الدوسريء برمجة الاسم المنسوب بياء النسب في العربية حاسوبياً - رسالة دكتوراه» جامعة اليرموك‎ - Y 
Aae eY Ne كلية الآداب»‎ 
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^ عرض نتائج التحليل 

تتفاوت المحللات الصرفية في طريقة عرض نتائج تحليل الكلمات والنصوص» 
وترتيبهاء وذلك تبعاً لقوة المحلل» والمنهج ell‏ في الترتيب» حيث نجد أن بعض 
المحللات الآلية تكتفي بذكر نوع الكلمة وزوائدهاء في مقابل ذلك mal‏ بعض مطوري 
المحللات بذكر سابقة الفعل» ولاحقته» وصيغته الصرفية» وتجرده» أو زيادته» ووزنه» 
وجذره» وإسناده» وبنائه للمعلوم» أو المجهول» وعلامات البناء» والإعراب» وضبطه 
بالشكل التام» وسابقة الحرف» ولاحقته» وعلامات بنائه» وسابقة الاسم ولاحقته» 
ووزنه» وجذره» ونوعه من جهة التصرف» وعدمه» ومن جهة التذكيرء والتأنيث» 
والنسبة» والتصغير» وعلامات بنائه» وإعرابه» وضبطه بالشكل التام. 

AI خطوات عمل المحلل الصرفي‎ g 

عدن لين فال ها كان الا تم فى أن ا ااا ايليا عن 
فلع افقوم dn‏ اهار dir‏ وعد pln orla i. nil aso AS‏ 
أو المجهول. وهل هو مجرّد آم مزيد؟ ويحدد وزنه» وأصله المشتق منه» وين حالته 
الإعرابية» والضمير المسند إليه. أي أنه يعطى وصفاً كاملاً عن حالة الفعل الصرفيةء 
ge diis tlU eds‏ سياف Pedi Dd Clo s cceli‏ 
OI uus‏ فعند تحليل كلمة «وحزن» يبدأ المحلل بالخطوات التالية: 

الخطوة الأولى: وهي خطوة تشذيب”" الكلمة المدخلة» حيث ينزع المحلل الزوائد 
التي لحقت بساق الكلمة» ليكتشف أنها تحتمل أكثر من تحليل» فينزع في الاحتمال الأول 
(الواو) كحرف عطف ليكون ساق الكلمة هو (حزن». UÍ‏ في الاحتمال الثاني فيقتطع 
الحاسوب أحد حروف الفعل الأصلية (النون) ظناً منه أا لاحقة زائدة لجمع المؤنث. 
(uiis‏ على السابقة (الواو)» ولكنه يقوم بإعادتها بعد أن يفشل في تحليل ما تبقى من 
الكلمة (وحز) فيعيد السابقة المقتطعة إليهاء ثم يحللها مرة أخرى, والاحتمال الثالث هو 
-١‏ عبدالعزيز بن عبدالله iq ell‏ بناء خوارزمية حاسوبية لتوليد الأفعال في اللغة العربية وتصريفها - دكتوراه' معهد 
تعليم اللغة العربية - جامعة الإمام محمد بن سعود الإسلامية» 415 ١ه‏ ص۷١٠.‏ 


-Y‏ التشذيب هو عملية إزالة كل من بوادئ الكلمة ولواحقها لإنتاج الجذر او الجذع. وهي طريقة رياضية تجمع كل 
الكلمات التي تتقاسم الأصل نفسه» وتملك بعض العلاقات الدلالية» حيث تعمل طريقة التشذيب المبنية على الجذع على 
إزالة السوابق واللواحق المتصلة بالكلمة» في حين تحوّل الطريقة المبنية على أساس الجذر الأصول إلى جذور. 
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نزع السابقة GI JD‏ واللاحقة (النون»» ليكون ساق الكلمة (حز)» وهي ساق سليمة 
عند تضعيف الحرف الثاني» أمّا الاحتمال الرابع فهو نزع السابقة (الواو) واللاحقة 
(النون) ليكون ساق الكلمة (حز) وهي ساق سليمة عند حذف حرف العلة» وأصلها 
(حوز). 

ا لخطوة الثانية: يكتشف المحلل العمليات الصرف صوتية التي تمت على ساق 
الكلمة» وهي في الاحتمال الأول (حَرَن) بنون النسوة» وني الاحتال الثالث (خُرَّنَ 
حزن as gio s QE‏ الثقيلة» وتي Jg NE‏ الرابع 9 بنون UE aedi‏ 
الاحتمال الثاني فلا يجد المحلل أية أدلة على حدوث تغيرات صرف صوتية حدثت على 
ساق الكلمة: 

الخطوة الثالثة: يقوم الحاسوب بعد ذلك بمقابلة ما تبقى من الفعل مع جداول 
الأفعال النموذجية المخزنة في الذاكرة. فيبحث عن الأفعال المساوية له في عدد الحروف» 
ليحصل على جميع الأفعال المفترضة الموافقة لهذا الفعل. وتحتوي جداول الأفعال 
النموذجية على جميع المعلومات المتعلقة بجذر الفعل» الباب الذي يتصرف منه» ووزنه» 
ومساره الاشتقاقي» حيث يحدد المحلل جذر الساق» وصيغته الصرفية للاحتمال الأول 
Le‏ 6 زن) و (فعل) أو (فعل) أو (فَعَلَ) Je YI Ul‏ الثالث فجذر الساق هو C)‏ 
ز G‏ وصيغته الصرفية (فعل)» بالنسبة للاحتمال الرابع فيكون الجذر (ح و O‏ وصيغته 
(فعل)» أما الاحتمال الثاني فلا تسفر عملية البحث عن جذر سليم» وصيغة صرفية 
يجوز انطباقها عليه. 

تستمر بعد ذلك عمليات الفحص» وتحديد مكونات الفعل» حتى يعرض 
الحاسوب نتيجة التحليل الصرفي» والتي تسفر عن ثلاثة احتمالات سليمة» الاحتال 
الأول: يفترض أن الفعل في الزمن الماضي» مسند إلى المفرد الغائب (هو) أو مسند إلى 
ضمير الغائبات a (EA)‏ ومسبوق بحرف العطف (الواو). أما الاحتمال الثاني» فيفترض 
ol‏ الفعل c SU‏ مسند إلى المفرد المخاطب (ESD‏ أو المفردة المخاطبة (أنتِ) أو الجمع 
المذكر المخاطب (أنتم) في حالة التأكيد بالنون الثقيلة» والاحتمال الثالث» يفترض أن 
الفعل )7 5 للأمر مسند إلى الجمع المؤنث GD‏ أو أن الفعل في الزمن الماضي» مسند 
إلى الجمع المؤنث CA)‏ 
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٠‏ . نظرة تاريخية للتحليل الصر فى الآلى للغة العربية 

حظيت اللغة الإنجليزية بنصيب الأسد في ميدان معالحة اللغات الطبيعية» UL‏ 
بالنسبة للغة العربية فاللأبحاث في هذا المجال انطلقت بصفة فردية في بداية السبعينيات 
في معامل بلدان أجنبية. فاعتمدت المحللات الصرفية العربية في بداياتها على الخبرة 
الفنية الحاسوبية» مع إغفال تام للخبرة اللسانية اللغوية» وربا اعتمد الحاسوبيون على 
بعض اللغويين التقليديين غير القادرين على فهم حاجات الحاسوب» حيث usa‏ تلك 

قام بعد ذلك مجموعة من الحاسوبيين واللغويين ببناء محللات صرفية آلية» تعتمد على 
قواعد صرفية تقوم باستخلاص عناصر بنية الكلمة» ويتميز هذا النوع من المحللات 
بمتانة أساسه اللغوي. فطوّر الدكتور «نبيل de‏ وأخصائية اللسانيات الحاسوبية 
«أمل الشامي» في عام ۱۹۸١‏ م أول محلل صرفي آلي متعدد الأطوار””''» وهو محلل صرفي 
قادر على التعامل مع أطوار التشكيل المختلفة للكلمة العربية» حيث يتكون المحلل من 
العناصر التالية: 

يقوم هذا المعالج بدور المفككء. ليفصل جذع الكلمة Ce‏ يتصل به من السوابق 
واللواحق» كذلك يقوم برد coL ARI‏ الصوتية التي حدثت على عناصر بنية الكلمة 
الصرفية إلى أصلها؛ فعند تحليل كلمة EKE‏ يدرك المعالج وجود التضعيف على النون 
كأحد الحالات الممكنة لتشكيل الكلمة» فيقوم بتحليلها إلى E‏ + نا». 

"- المعالج الاشتقاقي: 

يستخلص المعالج الاشتقاقي في طور التحليل الجذر والصيغة الصرفية من gd‏ 
الذي فككه المعالج الصرف نحوي» ويتم ذلك من خلال مقارنة سلسلة حروف الجذع مع 
قائمة قوالب الصيغ الصرفية دون علامات تشكيلهاء وبعد استخلاص الجذر يتم مقارنته 
بمعجم الجذور الممكنة في اللغة العربية» فإذا فشل المعالج في الوصول إلى جذر مقبول يبدا 


Y ١8ص‎ » ۱۹۸۸م‎ ch.s ينظر: نبيل علي» اللغة العربية والحاسوب ( دراسة بحثية )» تعریب»‎ -١ 
مدخلاً معجمياً في العادة.‎ cad y الجذع هو الكلمة التي يمكن أن تدخلها الزائدة الصرفية»‎ - Y 
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-Y‏ المعالج الإعرابي: 

يقدّم المعالج الاشتقاقي خرجه إلى المعالج الإعرابي» حيث يقوم بتمييز الحالة 
الإعرابية بناء على الوسم الإعرابي الذي تتضمنه الكلمة. 

€ - معالج التشكيل: 

يقوم معالج التشكيل بتحديد عناصر التشكيل الغائبة أو الناقصة» ويقوم بالرجوع 
إلى المعجم ليتأكد من صحة انطباق الصيغة الصرفية على الجذر رهن المعالجة. 

ويتميّز المحلل الصرفي JYI‏ متعدد الأطوار بقدرته على فض اللبس الناجم عن 
غياب التشكيل» أو نقصانه» وذلك باستنباطه لجميع Nem NE‏ الممكنة لتحليل 
الكلمة» كا يتميز بقدرته على التعامل مع الأنماط اللغوية» وعناصر التشكيل» وتداخل 
النحو والصرف» مع اهتتامه با يلحق الكلمة من تغيّرات صوتية ممثلة في عمليات 
الإعلال» والإبدال» والإدغام. 

بعد ذلك oso‏ كل من (تيم باك والتر» وكين بيسلي) من عام ۱۹۸۸م إلى عام ۱۹۹۰م 
محللاً صرفياً لكلمات اللغة العربية» يعتمد على أسلوب التحليل الصرفي ثنائي المستوى» 
وني عام 147١م‏ طوّر (كين بيسلي) المحلل» واستخدم تقنية جديدة للتحليل والتوليد 
حيث يقبل المحلل الكلمات العربية المشكولة US‏ أو جزئيّاء ويقدم lode‏ من الحلول 
الممكنة للكلمة المحللة» ويقل عدد تلك الحلول مع استخدام علامات التشكيل. 

وفي عام ١۱۹۹م‏ قامت شركة حوسبة النص العربي في ote‏ ببناء محلل d re‏ عربي 
بمدف الوصول إلى محلل قواعدي يستخلص جذر الكلمةء ويقدّم معلومات الضمائر 
والحروف المضافة إليها. كا قامت الشركة الهندسية لتطوير نظم الحاسبات (Rdi)‏ - 
وهي شركة مصرية - بتطوير المحلل الصرفي Arabmorph‏ الذي يحلل الكلات إلى 
جذورها وأوزانهاء ويحدد توابعهاء ويضم المحلل قواعد معطيات معجمية تفصيلية 
لكل كلمة» ويعتمد المحلل على السياق عند تحليل الكلمات التى تحتمل أكثر من معنى. 

celi راء‎ peel ء٠١۹۹ أبريل‎ YA E 89 من‎ all اول‎ tao d ae 
الحاسوبية الصرفية للغة العربية» وذلك بدعوة من المنظمة العربية للتربية والثقافة‎ 
والعلوم» وبالتعاون مع مجمع اللغة العربية بدمشق» ومدينة الملك عبد العزيز للعلوم‎ 
والتقنية بالرياض» حيث شارك في الاجتماع باحثون جامعيون عرب» وأجانب من‎ 
المملكة العربية السعودية» والمغرب. والجزائر» وتونس» ومصر» وسورياء وبريطانياء‎ 
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وفرنساء والولايات المتحدة الأمريكية. وتمحور جدول أعمال الاجتماع حول التعريف 
بالمحللات الصرفية الآلية للغة العربية المقدمة من E‏ المشاركين في الاجتماع» مع 
عرض نتائج تطبيق معايبر تقييم المحللات الصرفية على المحللات الصرفية التي قذمها 
المشاركون. وسنعرض في عجالة بعض تلك المحللات: 


-١‏ المحلل (all‏ للغة العربية لمخبر«ميراكل» صفاقس - تونس: 

يقوم محلل مخبر «ميراكل» بالتعرّف على السوابق واللواحق مع اكتشاف زوائد 
الكلمات» واستخراج الخصائص النحوية» والصرفية الممكنة U‏ وعندما حللنا كلمة 
«وزوجناكها» باستخدام المحلل حصلنا على النتيجة التالية: 


باد Co‏ مؤنث. selle‏ الاي 
مؤنث. dpi N A.‏ 7 


الجدول :١‏ تحليل كلمة «وزوجناكها» 


-١‏ محلل صرني موجه بالتطبيقات - المعهد العالي للعلوم التطبيقية 
والتكنولوجيا - سوريا: 

بهدف المشروع إلى تطوير محلل صرفي آلي يت يتمتع بالمرونة الكافية ليكون مناسباً للاستخدام 
في جنيع المجالات. وتتكون الخوارزمية المتبعة في نظام المحلل من المراحل التالية: 

- مرحلة تحديد نوع الكلمة: حيث يختبر المحلل كون الكلمة المدخلة أداة» أو كلمة 
معربة» وذلك باستخدام قائمة من الأدوات والكلمات الجامدة والمعربة. 

- مرحلة الكشف عن الحروف الأصلية: وقد طوّر المعهد خوارزمية خاصة للكشف 
عن الأحرف الأصلية» يصل المحلل بعد هذه المرحلة على حلول 2 1 من الكلمات. 

- مرحلة عرض الاحتالات: يعرض المحلل مجموعة من الاحتالات eJ Adla‏ 
يتضمن كل حل الحروف الأصلية جميعهاء ولا يتضمن أي حرف زائد» مع الإشارة إلى 
السوابق» واللواحق الصحيحة» وإلى حالات الإدغام» والإعلال» والإبدال. 

- مرحلة تصحيح الحلول: حيث يصحّح المحلل الحلول بتطبيق مجموعة من 


SA 
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الخطوات الاختبارية؛ للتأكد من وجود الوزنء والجذر» وتطبيق قواعد الإبدال» 
والإعلال. وعند تحليل كلمة «فرق» باستخدام المحلل حصلنا على النتيجة التالية: 
الكلمة «فرق» الوزن: فعل» الجذر: فرق» السوابق: لأ يوجد» الجذع: فرق» اللواحق: 
لا يوجد. وقد أغفل المحلل ذكر الكثير من المعلومات الصرفية والنحوية المهمة للفعل 
«فرق)» كنوع الفعل» وصيغته الصرفية» وحالته الإعرابية (انظر الشكل التالي) »كما أغفل 
المحلل ذكر العديد من الحالات القابلة للتحليل. 


مواصفات نظام التحليل POS‏ [ 


ملف تحرير تتسيق تشعيل أدوان Aas‏ مساعدة حدد حالة نظام التحليل المرفى التى تناسيك باستخنام aid‏ الواحهم 
تايا ها ىن 20 -+A Pena‏ يمكنك الاستعانة بالتوميف الموجهد بالا 
Ors‏ تمت OF Ori OR OR Om Ors Oms‏ | 


الية في عهلية يد | 
alas] clas‏ الكواد al‏ م à sd c a‏ 
ديلومات التأهيل والتخصص ودراسة الماجستير وتحضير الد 
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الشكل :١‏ تحليل كلمة «فرق» 

-Y‏ محلل صرفي للغة العربية باستخدام تقنيات الذكاء الاصطناعي - فاضل 
سكر. وسمر معطي - سوريا: 
الوزن الصحيح» ثم الصيغة الصرفية الصحيحة؛ مع إيجاد العلاقة الصرف نحوية. 
وقد استخدم مطورو المحلل لغة visual prolog‏ لأا تختلف عن اللغات التقليدية 
بكوخبا الأكثر قربا من لغة الإنسان» وتتضمن قواعد معطيات المحلل: أوزان الأساءء 
والأفعال في اللغة العربية» بحيث يسمح محرك بحث المحلل بتوليد الافتراضات بناءً 
على الأوزان المخزنة في قواعد المعطيات. 


١‏ - دخل المحلل يكون كلمة مشكولة EIS‏ أو جزئياً أو غير مشكولة. 
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5 - محلل صرني لكلمات اللغة العربية خارج السياق وداخله - جامعة محمد 
الأول وجامعة قطر: 

يعمل هذه المحلل معالجة على كلمات اللغة العربية بطريقتين: 

الطريقة الأولى: معالجة الكلمات خارج السياق» حيث يعمد النظام إلى تفكيك 
الكلمات إلى لبناتها الصرفية من سوابق» وجذوع» ولواحق؛ Ut‏ يسمح بتحديد الحلول 
الصرفية المحتملة ها باللجوء إلى قواعد معطيات المحلل. 

الطريقة الثانية: معالجة الكلمات داخل السياق؛ ويعتمد المحلل على نموذج إحصائي 
يسمح بتحديد الحل الأكثر رجحانا لكل كلمة بالنظر إلى الحلول المقترحة في الكلمات 
المبابقة ميم الخملة: 

ه- محلل o‏ 3( مصدري عربي للتطبيقات العامة - مدينة DUM‏ عبد العزيز 
للعلوم والتقنية: 

هو محلل مصدري» وليس صرفي لكلمات اللغة العربية» هيدف إلى الوصول إلى 
مصدر الكلمة وليس جذرهاء ويحدد لواصقهاء ويعتمد المحلل التشابه في الشكل 
الخارسي cola iD‏ الولدة على ليرا الصرق eae‏ وباللوا ضرق xax e‏ هذا 
المحلل بالسرعة الكبيرة» ولا يحتاج Jalad‏ كثيرة» وهو جيد لبناء التطبيقات الحاسوبية 
العامة لمحركات البحث» كا يمكننا استخدامه كخطوة أولى لتفكيك المفردة العربية قبل 


تحليلها صرفياً. 
5- برنامج مداد للتحليل الصرني للكلمات العربية - شركة مداد لتقنية 
المعلومات: 


يدف محلل مداد إلى تفكيك النصوص العربية إلى كلمات» وتحليلها لتحديد أنواع 
dels‏ ثم تحديد الزوائد من سوابق ولواحق» وحروف مزيدة» Gdp‏ الوصول إلى 
ا لجذرء مع عرض التشكيلات الممكنة للكلمة. وتضم قواعد معطيات المحلل الجذورء 
والكلمات الشاذةء UT‏ باقي الكلمات التي تأتي حسب القواعد فيستطيع المحلل التعرف 
عليها دون الرجوع إلى قواعد المعطيات. 
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VJI طرق التحليل الصرفي‎ . ١ 

هناك العذيد من الدراسات التي تناولت التحليل الصرفق» وقد انبعت هذه 
الدراسات طرقاً ختلفة لعا جة الكلمات صرفياًء حيث يمكننا إيجازها فيا بلي: 

الطريقة الأولى: طريقة قوائم الكلمات المخزنة» وتعتمد هذه الطريقة على تخزين 
eu eps.‏ العريية eau di tese‏ مكوناتها الصردة كل شكل cue‏ كبر ااي 
قواعد معطيات ضخمة» تضم الانزياحات الصرفية بأشكاها المختلفة» ويحلل البرنامج 
الكلمة المدخلة عن طريق البحث عنها في هذه الجداول» ومن ثم معرفة جذرها ببساطة» 
ويمكن تطبيق هذه الطريقة على نصوص معينة» مثل القرآن الكريم» أو مجموعة كتب 
محددة. ويعيب هذه الطريقة ضخامة حجم المواد اللغوية التي نقوم بإدخاها إلى 
الحاسوب» وتضييقها للتحليل اللغوي» lee‏ مواد المعجم مرجعا وحيدا للتحليل. 

الطريقة الثانية: الطريقة اللغوية» ويكون ذلك عن طريق توصيف قواعد اللغة 
العربية الصرفية» وتحويلها إلى خوارزميات حاسوبية» فيحاكي المحلل عمل اللغوي 
عند تصريف الكلمات» وتحليلها. وتعالج هذه الطريقة عيوب الطريقة الأولى. 

الطريقة الثالثة: الطريقة الرياضية» وذلك عن طريق تحليل الكلمات بشكل dl‏ 
بطريقة التجربة والخطأ والتصحيح» فالكلمة هنا مجموعة من الحروف يأخذ المحلل 
ثلاثة أحرف منهاء ويقارنها بقائمة الجذور المخزنة في قواعد المعطيات. فإذا لم يجد 
المحلل الجذر في القائمة» أخذ ثلاثة أحرف أخرى» ويستمر إلى أن يجد الجذر الأقرب 
إلى الصواب. 

الطريقة الرابعة: طريقة الأوزان» وذلك بتوليد مجموعة من القواعد النصية الآلية 
عن طريق المقارنة بين قائمة كبيرة من الكلمات مع ما يقابلها من مصادرهاء وتستخدم 
هذه القواعد لمعرفة مصدر الكلمة. فإذا انطبقت على الكلمة أكثر من قاعدة واحدة» 
رجح المحلل أكثر القواعد تكراراً. 


-١‏ يُنظر: عبدالله بن عبدال رحمن الزاملء العلاقة الصرفية بين الجذور والأوزان, (الأوراق البحثية للندوة الدولية الأول 
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© ضوابط ومحددات للمساعدة فى بناء المحللات الصرفية‎ . ١١ 


يعتمد النظام الصرفي والنحوي للغة العربية على مجموعة من الضوابط؛ والمحددات 
التي KES‏ بناء كلمات اللغة العربية وجملهاء وتتوزع هذه الضوابط والمحددات بين 
ضوابط شكليّة» وأخرى o‏ وهي في مجموعها محددات يمكن للعقل البشري 
فهمهاء واستنباطها بخلاف الحاسوب الذي لا يدرك إلا الشكلي منهاء وهذه الضوابط 
والمحددات يمكننا ترجمتها إلى مسائل منطقية؛ يسهل Ge‏ حاسويياً. 

إن توصيف قواعد تحليل كلمات اللغة العربية مع رصد ضوابطهاء يقصد إلى تمكين 
الحاسوب من كشف صيغ المشتقات في النصوص المشكولة» وغير المشكولة. وتنقسم 
ضوابط الكلمات إلى نوعين: صرفية وهي العلامات أو الخصائص التي ŽE‏ الكلمة من 
حيث بنيتها الصرفية» وما يمكن أن تقبله من تغيّرات» وما يمكن أن يطراً عليها من 
أحوال. واضوابط نحوية تتميز بها الكلمة من خلال وجودها في التركيب» ومن خلال 
ارتباطها مع غيرها من الأبنية بعلاقات تحددها طبيعة التركيب نفسه» فهي ضوابط لا 
يتحقق وجودها إلا في التركيب)”". 

هناك محددات» وضوابط ile‏ خاصة بالأسماء دون الأفعال والحروف» مثل أل 
التعريف» وحروف الحرء والإضافة» والتاء المربوطة» والتنوين» واتصال (ون) بجمع 
المذكر السالم و(ات) بجمع المؤنث السالم ...إلخ. بين| هناك محددات تيز المشتقات عن 
الأسماء؛ فلكل مشتق صيغة خاصة به دون غيره من المشتقات؛ فصيغة (فعّال) -مثلاً- 
تختص بالمبالغة» غير أن بعض صيغ المبالغة قد توافق بعض صيغ الصفة المشبهة؛ كصيغة 
(فعيل) ولا يفصل Ceo‏ إلا المعنى السياقي. 

۳ . مشكلات تواجه بناء محلل صرفي دقيق لكلمات اللغة العربية ونصوصها 

o]‏ بناء محلل صرفي دقيق لكلمات اللغة العربية ونصوصها ليس بالأمر الهين» « بل 
يتطلب الكثير من الجهد» كما يحتاج إلى فرق بحث متخصصة ذات تصور كامل حاسوبياً 
ولغوياًء فمعظم النظم والبرامج المجرّبة على اللغات الإنسانية لم تسلم حتى OY‏ من 


-١‏ يُنظر: عزت جهاد عزت العجوري» توصيف لغوي صرفي لشعر بدر شاكر السيّاب في ضوء اللسانيات الحاسوبية» 
رسالة ماجستيرء الجامعة الحاشمية» 9 ٠‏ ٠م‏ ص /ا-١1.‏ 


. ص57‎ e ١1995 N b Oe لطيفة النجار» دور البنية الصرفية في وصف الظاهرة النحوية وتقعيدهاء دار البشير»‎ -Y 
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الكثير من المشكلات والصعوبات سواء على المستوى المنهجيء أو الصوري O31‏ 
ويمكننا تقسيم هذه المشكلات إلى: l‏ 

۳ و١‏ مشكلات لغوية: 

إِنَّ الدراسات الصرفية القديمة غير كافية لبناء محلل صرف حاسوي للغة العربية» فمع 
ما أحرزه القدماء من تقدم في دراسة صرف اللغة العربية» ومحاولاتهم الجادة في ضبط 
نظامها الصرفي والصوتي» «لكنها بحد ذاتها غير كافية للتعامل العلمي مع اللغة» ذلك 
التعامل الذي يأخذ اللغة بوصفها ظاهرة)”". فالحاسوب لا يتعامل إلا مع خوارزميات 
قبط colles‏ تراد Ru iU» de) eda Ut dall) «dedi‏ صرف ial‏ 
العربية» والإحاطة الكاملة بكلماتها. ونوجز فيم يلي أبرز تلك المشكلات اللغوية: 

<١‏ غيات: الشكيل» celo‏ ييه خيلا مازع - أكبن غقبة توانجه تخليل الكلات 
العربية حاسوبياً؛ فنتيجة لغياب التشكيل يمكن لعدة صيغ صرفية ختلفة أن تستخدم 
هيكلاً واحداً للحروف» وعلى الحاسوب أن Z2‏ الصيغة الصرفية المقصودة» مثل: 
«کتب» يمكن أن تكون: ١كُتَبَء‏ كُتِبَء dela S IUS‏ في الاعتبار كل حالات 
اللبس”" الممكنة» وبالتالي على القائمين على بناء تطبيقات التحليل الصرفي QVI‏ 
تغطية جميع حالات اللبس التي يسببها غياب التشكيل من خلال بناء مجموعة من 
الخوارزميات”'' لتغطية جميع الحالات الممكنة للكلمة. 

؟- الرسم الإملائي: تختلف طرق كتابة بعض الكلمات العرّبة في اللغة العربية» 
نما يؤثر على دقة عمل المحلل الصرفي الآلي» وذلك مثل: ( مسؤول - مسئول» 
كمبيوتر - كومبيؤترء أوووبا = أوريا) 


-١‏ عزت جهاد عزت العجوري» توصيف لغوي صرفي لشعر بدر شاكر السياب في ضوء اللسانيات الحاسوبية» رسالة 
ماجستير» الجامعة الحاشمية» ۲۰۰۹ ee‏ ص ٠۹-۱۸‏ . 

Y‏ حسام الخطيب»ء العربية في عصر المعلوماتية - تحديات عاصفة ومواجهات متواضعة» مجلة التعريبء المركز العربي 
للتعريب والترجمة والنشرء العدد الثاني» ve AAA‏ ص۷۷. 

-Y‏ اللبس نوعان: لبس حقيقي» يكون فيه للكلمات التشكيل نفسه كا في كلمة ”كمال“ فهي تحتمل: ”كمال = اسم عله“ 
و “كمال = ك + مال“. ولبس غير حقیقي» يكون ذلك عند غياب التشكيل؛ كما في ”کتب“ حيث تحتمل LS E‏ 
٤‏ - الخوارزميات: مجموعة قواعد وقوانين مكتوبة» تستعمل لوصف النخطوات المنطقية المتبعة لمعالجة البيانات الداخلة 
للحصول على المعلومات والنتائج المطلوبة. وقد سميت الخوارزميات بهذا الاسم نسبة إلى العام العربي المسلم ”أبو جعفر 
محمد بن موسى الخوارزمي“ (١۸۲م)»‏ والذي اشتهر في جال الرياضيات» وقد ألف كتابه المشهور ”الجبر والمقابلة“. 
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۳- الأساء المترحمة: هناك اختلاف في كتابة الأسماء الأجنبية باللغة العربية» مثل: ( 
كوفي أنان - كوي عنان» وفرانسوا أولاند - فرانسوا أولند» ومحاضير بن محمد - مهاتير 
بن محمد). 

5 - كلمات الوقف: وهي كلمات كثيرة الورود في النصوص. ولا تحمل معاني إذا 
فُصلتٌ عن السياق» ولا ila OIS‏ مفيدة عند استخدامها وحدهاء وهي حروف 
وأدوات لازمة لتركيب الكلام العربي» مثل: حروف الجرء والعطف» والاستفهام 
والنفي» والتعجب» والنداء» والظروف» والضمائر ...إلخ. 

o‏ الأخطاء الإملائية: تكثر الأخطاء الإملائية في الكتابات المعاصرة» حيث يمكننا 
كتابة بعض الكلمات في صور إملائية مختلفة من بينها الصورة الصحيحة» ونوجز 
الأخطاء الإملائية في النقاط التالية: 

- الخطأ في كتابة *مزتي الوصل والقطع» والهمزة المتوسطة» واختلاف كتابة ال همزة 
باختلاف حالة الكلمة الإعرابية» فقد لوحظ أن الهمزة تلعب دورًا كبيرًا في التمهيد 
للمحلل الصرفي لتحليل الكلمة المطلوبة بسهولة» في حين يشكل عليه تحليلها بدون 
وجود الهمزة. 

- اختلاف كتابة الياء المنقوصة» مثل «قاضي» فهي منقوطة في الكتابة الشامية» وغير 
منقوطة في الكتابة المصرية. ١‏ 

إن مشكلة تفاوت رسم الكلمات جوانب سلبية على عملية تحليل الكلمات» «وترجع 
ظاهرة التفاوت إلى سببين» أحدهما الأخطاء البشرية» Cea s‏ اختلاف الممارسات» أو 
القواغد xnl‏ لإمللاء الكلرات العرية والأساء eso xs ME‏ أشرفا إلى ذلك سابقا - 
والتي يختلف رسمها بين المؤلفين CUI SE‏ ما يؤثر على دقة تحليل الكلمات. 

25 هن السيل غل ا اسرب أن يمد أبنية ctl‏ ولك يعجو عن ريد cs‏ 
«s el‏ إذا عرضث عليه وكانت تنتهي بألف ونون COD‏ أو ياء ونون (ين)» وهي ليست 
ot IJ «a‏ الخال E d sad‏ دا امه مطاف d o SO‏ الكل 
بعد c NT d‏ واو أو الباء والتوق OU‏ ولت يعن «Uta edi‏ عل 


-١‏ علي السليان الصوينع؛ استرجاع المعلومات في اللغة العربيةء مطبوعات مكتبة الملك فهد الوطنيةء السلسلة الثانية» 
الرياض» ام ص No‏ 
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مفردة مفيدة كانت مثنى» وإن لم تدل كانت كلمة أخرى»» فكلمة (رجلان) بعد 
تجريدها من الألف والنون COD‏ تصبح (رجل) إذن الكلمة مثنى» وذلك بخلاف كلمة 
(كان) فبعد تجريدها من الألف والنون تصبح C)‏ إذن هي كلمة أخرى وليست مثنى. 

۷- وجود أكثر من معنى للبنية الصرفية الواحدة» ونعني بذلك أن «بنية الكلمة 
الوالحدة تفيل أكثر من فعض idol‏ فكلمة (ظهور) تكرن عصدرا للنعل C)‏ 
أو جمعاً للمفرد (ظَهْر). وإزالة اللبس هنا يحتاج إلى العديد من الأدلة الإضافية التي 
تساعد على التمييز بين الكلمتين السابقتين»”" كأن نضع الكلمتين في سياق لغوي. كا 
أنه يمكن أن يكون للصيغة الصرفية الواحدة في اللغة العربية أكثر من وظيفة نحوية؛ 
ف انر لا یکی أن تكرة مدر el a TRO‏ وجمع كثرة» نحو: «(شيوف». 

۸- التغيّرات الصوتية» وهى تغيّرات تحدث في بنية الكلمة» وتطراً على بعض 
أصوات اللغة العربية في اقات صوتية معينة» حيث تتغيّر بعض أصول الكلمة 
بحذفهاء أو clou]‏ أو قلبهاء أو إدغامها مع صوت آخرء أو إعلالهاء أو إعادتها إلى 
أصلها؛ فالواو -مثلاً- حُذفت في «يقف» ثم عادت للظهور في «وقف»» في حين عادت 
cal‏ «جرى» إلى أصلها في «يجري». والحذف يكون في الصوامت أيضا؛ كحذف نون 
المثنى وياء المخاطبة إذا وقعت نون التوكيد بعدهماء کہا في USO‏ و S0‏ وكذلك 
cid‏ نوق JUI S eem «ull‏ الات عا Lili? (d‏ المت وكائير 
cce a‏ وكذلك حذف نون الفعل المضارع إذا كان من JUS MI‏ الخمسة في حالة 
النصبء أو الجزم, أو مع نون الوقاية. 

ويكون التغيير أيضاً بإبدال حرف صحيح بحرف آخر» كإبدال تاء fp‏ طاءً إذا 
كانت فاؤها صاداً أو ضاداً أو طاءً أو Ub‏ نحو: Cb‏ وأصلها «EI»‏ وكذلك 
إبدال تاء cji‏ دالا إذا كانت الفاء دال أو IS‏ أو ul;‏ نحو: GASD‏ وأصلها 
EED‏ ومن التغيّر بالإبدال أيضاء إبدال تاء c e Tei»‏ إذا كانت الفاء dU‏ نحو: 
fp‏ « وأصلها K p‏ 


-١‏ محمود مصطفى عيسى خليل» إسناد الأفعال إلى الضمائر في ضوء اللسانيات الحاسوبي- ماجستير» كلية الدراسات 
العلياء الأردن» Yi VY‏ ص49. 


-Y‏ نهاد الموسى» العربية نحو توصيف جديد في ضوء اللسانيات الحاسوبية» المؤسسة العربية للدراسات والنشرء بيروت» 
YiYoeceYt Vo‏ 
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ويكون التغيّر بالإعلال بالقلب» كقلب الواو والياء Gli‏ ى) في «جال» من A‏ 
وقلب الواو cl‏ نحو: «(رضي» فن NS‏ روفلب الباء وار ت ا م 
CS ux‏ يكون الإعلال بالحذف» نحو: «b»‏ وأصلها TOUT‏ ويكون الإعلال 
بالتسكين» نحو: GALI‏ وأصلها ( يَسِمُوَ). GÍ‏ التغيّر بالإدغام» فك| في PER ES‏ 
GI»‏ ثم حذفت الفتحة التي بين الحرفين الثاني والثالث» ما أدى إلى الإدغام» بسبب 
تجاور صوتين متشاءبين. وتمثل هذه col E‏ تحديا يواجه الباحثين في JU‏ اللسانيات 
الحاسوبية عند تصميم المحللات الصرفية الآليّة» نظراً لكثرة هذه التغيّرات وتنوعها. 
ما يؤدي إلى أعباء إضافية في رد الفرع إلى الأصل عند تحليل الكلمة 

4- صعوبة تعرف المحللات الصرفية الآلية على المصدر الصناعى» وذلك نحو: 
l Aa‏ 

-١‏ اللغة العربية ذات عمليات صرفية معقدة تعتمد على العدد (مفرد» ومثنى› 
وجمع) والضائر المتصلة والمنفصلة. 

-١‏ دمج الأدوات» والضمائر المتصلة مع الكلمات في اللغة العربية» حيث تتغير 
صورة الكلمة في اللغة العربية عند اتصاها بالضمير» مثل: كتبت» كتبناء كتبوا...إلخ. 

ES عدم توفر توصيف دقيق ومتكامل لقواعد الصرف العربي» حيث‎ -١ 
معظم كتب الصرف بشرح عام للقواعد الصرفية» مقرونة ببعض الأمثلة عن حالات‎ 
الشذوذ والاطراد.‎ 

ez -١‏ الكلمات المركّبة في اللغة العربية صعوبة بالغة عند تحليلها y CIT‏ وذلك 
بسبب وجود الفراغ الذي يفصل بين عناصر الكلمة المركبة» حيث تختلط تلك الكلمات 
مع الكلمات غير المركبة. 

۳ر Y‏ مشكلات حاسوبية: 


هناك هوّة كبيرة تفصا بين اللغويين والحاسوبيين» ولعل من أبرز مسبباتها «ذلك 
التسارع في التطور الحاسوبي من جهة» والتباطؤ في الدراسات اللغوية من جهة أخرى. 
إلى جانب المرجعية الغربية لتطبيقات الحاسوب. واللسانيات الحاسوبية)”'» يضاف إلى 


-١‏ عزت جهاد عزت العجوري» توصيف لغوي صرفي لشعر بدر شاكر السيّاب في ضوء اللسانيات الحاسوبية» رسالة 
ماجستير» الجامعة الحاشمية» ie 7٠١١4‏ ص YY‏ 
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ذلك أن معظم برامج التحليل الصرفي الآلي لكلمات اللغة العربية ونصوصها هي من 
تطوير الحاسوبيين» حيث انشغل الحاسوبيون بالمطرد من قواعد الصرف العربي دون 
النظر إلى الظواهر الشاذة» مع ela VI‏ بالجانب التوليدي للكلمات دون تحليلها. 

.١ 5‏ كيفية توصف القواعد الصرفية لبناء المحلل الصرفي JII‏ 

الاسر Y eee xf co‏ غلك عقا ds s‏ ولا يمك أن بكرن co fal‏ فادرا 
على تقدير الأمور إلا بمقتضى حدود البرمجة؛ فهو غير قادر على تمييز كلمة (انتقل) إذا 
جاءت خارج سياقهاء أهي فعل أمرء أم فعل ماض؟ لذا ينبغي أن يوصّف اللغوي 
بمساعدة الحاسوبي قواعد اللغة للحاسوب. 

Li p‏ عملية التوصيف بإيداع الحاسوب cel Jl‏ والأساسيات الابتدائية التي 
يختزنها العقل الإنساني» بهدف الوصول إلى الكفاية اللغوية» ويكون ذلك عن طريق 
عرض منهجي قادر على استقراء cael Ul‏ وتفصيلها وفقاً لمستويات اللغة المتفاوتة 
(الصوتي والصرفي CI uml s‏ فعند توصيف الفعل ينبغي أن نبيّن نوعه من حيث 
البناء للمعلوم أو المجهول» وعلامة بنائه» وتوصيفه من m‏ صرفيّةِ ثلاثياً أو رباعياً 
مجرداً أو das p‏ صحيحاً أو معتل مع الإشارة إلى ما أصاب الفعل من إعلال أو إيدال 
أو إدغام» وهكذا يتم توصيف الجانب الصوتي والصرفي والنحوي. 

OLII متطلبات بناء المحلل الصرني‎ .٠ 

Daude 

-١‏ تحديد جذور الكلمات العربية» لمعرفة أصول الكلمات التي تتشابه فيها البنية 
l aake akai‏ 

-Y‏ تحديد الأعلام دون تحليلها إلى مستوى الجذر. 

-Y‏ تحديد الكلمات الثابتة”” التي لا تشتق منها كلمات أخرىء وهي الكلمات التي 


ole -١‏ الموسىء العربية نحو توصيف جديد في ضوء اللسانيات الحاسوبية» المؤسسة العربية للدراسات والنشرء بيروت» 
طك١١٠كمءصض١1.‏ 


؟- يُنظر: عبدالعزيز بن عبدالله المهيوبي» إشكاليّات تطوير محلل صرفي حاسوبي دقيق للغة العربية (محلل الخليل نموذجا)» 
ile‏ اللغة العربية وتعليمها للناطقين بغيرهاء جامعة أفريقيا العالمية» العدد ١‏ 175١5م.‏ 


LS, -Y‏ كلمات التوقف أو الوقف. 
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إهداء من المركز 
ولايسمح بنشرها ورقياً 
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.).... هي دون حاجة للاشتقاق منهاء مثل ( هؤلاءء ذلك‎ CS تثبت‎ Lo 

-٤‏ تحديد الفروق الدقيقة بين الكلمات الملبسة. 

sly -5‏ قاعدة معطيات للأوزان القياسية ce uU‏ والأفعال المشتقة من كل جذر. 

٦‏ - بناء قاعدة معطيات للسوابق» واللواحق» والزوائد التي يمكن أن gb‏ في بداية 
كل كلمة أو gute‏ 

SU بناء قاعدة بيانات لتخزين نتائج التحليل الصرفي‎ - V 

CARE S) متطلبات تقنية‎ E 

-١‏ بناء قواعد المعطيات» وبرامج إدخال المواد اللغوية وبرامج تعديلها بعد 
الإدخال. 

-Y‏ بناء برنامج التحليل الصرفي الآلي باستخدام إحدى لغات البرمجة. 

Y‏ - بناء برنامج لربط الجذور بمشتقاتها المختلفة الموجودة في قواعد المعطيات. 

- بناء برنامج للتشكيل الآلي للكلمات. 

4- بناء برنامج للتصحيح الإملائي' . 

5. قصور المحللات الإنجليزية عن استيعاب خصائص اللغة العربية 


يواجه مطورو المحللات الصرفية العربية صعوبات تتعلق بثرائها الصوتيء والصرفيء 
والمعجمي الواسع» نظراً لقلة الأبحاث الأكاديمية» والتقنية المرتبطة بهاء وتناثرهاء 
وغياب التنسيق فيا بينهاء سواء من الناحية النظرية أو العملية» مع قلة الإمكانيات 
المتاحة. «وكان هن S‏ ذلك أن انتغاز مظررو المحللات السرفية LINT‏ الغربية حارلا 
من النظريات الخاصة باللغة الإنجليزية» حيث لم - تلك الحلول في استيعاب 
خصائص اللغة العربية وطاقاتها حاسوبياً؛ لأنها في شتى قواعدها أشمل» وأثرى من 
النموذج الإنجليزي» حيث يقف المحلل الصرفي للغة الإنجليزية -نظراً لخلو اللغة 
الإنجليزية من خاصية الاشتقاق- عند حدود ساق الكلمة» فإذا أردنا أن نستخدمه 
في نطاق اللغة qe cup Me‏ بع عر لبور 
«اعلم) باستخدام محلل صرفي o‏ م للغة الإنجليزية وجدناه في حرف الألف. s‏ 


-١‏ يقوم المدقق الإملائي باكتشاف الأخطاء الإملائيةء واقتراح التصحيحات المناسبة البديلة لها. وعد مدقق صخر واحداً 
من أوائل المدققات الإملائية التجارية العربية. 
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نجد «تعلم» في حرف التاء» وهذا يجرد اللغة العربية من خاصية استدعاء الجذر لمشتقاته 
الذي Dar‏ على أساسها ثروتها اللفظية في ا لمعاجم» وكتب التراث المتداولة». 

كما يتسم التصريف في اللغة العربية بالاطراد التام عدا حالات نادرة» في حين يزخر 
تصريف الإنجليزية بحالات شذوذ متعددة. ىا أن لظاهرة الإعراب أهمية كبيرة في 
اللغة العربية» بخلاف اللغة الإنجليزية التي تغيب عنها هذه الظاهرة بشكل شبه تام. 
وتتصف اللغة العربية بإمكانية دمج الضائر والأدوات مع كلماتهاء وغيابها في كلمات 
اللغة الإنجليزية. 

ويتضح من هذا التباين أنه لا بديل من بناء نموذج لغوي لمحلل صرفي آلي مبتكر قادر 
على التعامل مع طبيعة اللغة العربية» يتم فيه توصيف القواعد الصرفية والنحوية بطريقة 
تناسب أساليب ال معالحة الآلية» دون اللجوء إلى الحلول المستوردة من اللغات الأجنبية. 

۷. لماذا تفوقت المحللات الصرفية العالمية على العربية؟ 

لقد أصبحت مشاريع معالجة اللغة العربية حاسوبياً سلعة تجارية U DLS‏ 
شركات تجارية» بسبب تأخر اللغويين والحاسوبيين العرب عن الخوض في هذا «Jil‏ 
عدا بعض الأعمال الفردية التي افتقدت إلى الدعم المالي. وعلى العكس من ذلك تسعى 
الدول المتقدمة لدعم البحوث العلمية في JU‏ اللسانيات الحاسوبية» مع تقديم الدعم 
اللازم للقطاع الخاص» ومراكز البحوث. كا أن لبعثرة جهود اللغويين والحاسوبيين 
العرب دور كبير في هذه الفجوة الرقمية بين النظم اللغوية العالمية» والنظم العربية» فكل 
باحث أو شركة عربية تعمل بمعزل عن الأخرى. 

YA‏ أسس مقترحة لبناء محلل صرفي دقيق للغة العربية 

سنطرح هنا مجموعة من الأسس التي تهدف إلى استغلال خصائص تصريف كلمات 
اللغة العربية (كاطراد قواعد الإعلال والإبدال والإدغام)» وتتعامل مع دخائل 
وتتصدى لمشاكله» وتستغل وضوحه» وتتحاور مع أوجه قصوره. ونعيد هنا لنؤكد 
أن الصرف العربي يمثل مجالاً نموذجياً لتزاوج الحاسوب واللغة» ونوجز هنا أهم هذه 


£ 


الأسين؛ 


-١١ ط۰۱ 7١٠7م ص8‎ le اللغات -دراسة في خصائص اللغة العربية» والنهوض‎ el يُنظر: سعيد أحمد بيومي»‎ -١ 
Sea 
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١‏ - ضرورة تعامل المحلل الصرفي الآلي لكلمات اللغة العربية ونصوصها مع «أطوار 
[Sca‏ اة الصو العرزية JULI s c Still Xa)‏ من التشكيل» والمشكولة 
جزئياً) لذا ينبغي أن يتوافر في المحلل الصرفي الآلي الذكاء الاصطناعي الكافي؛ لتخمين 
saxi‏ قعاص hall‏ وتغطية جميع ERE TERT‏ وسا 

Y‏ 7 ينبغي أن يشير المحلل الصرفي إلى التغيرات الصوتية à‏ التي حدثت في الكلمة 
المراد 2 تحليلهاء فعند تحليل الفعل i»‏ يذكر المحلل أن أصل الكلمة هو )35( فخذفت 
5 عين الكلمة» cada;‏ عينها في لامها؛ بسبب تجاور صوتين متشامبين. وعند 
تحليل الفعل المضارع Go‏ يذكر المحلل الصرفي ol‏ أصله 359 فحدث إعلال بنقل 
حركة عين الكلمة إلى فائها الساكنة» وإدغام العين باللام بسبب تجاور Opt‏ ول 
تحليل الفعل «جالٌ» يذكر لمحلل أن أصل culis «jx» Je‏ الوا cz y JE‏ 
حركتها. أما الفعل المضارع ad‏ اا ل حدث فيه إعلال بنقل حركة عين 
الفعل إلى فائه. 

Y‏ - أن يفرّق المحلل الصرفي بين الصيغة الصرفية» والميزان الصرفي. 

-٤‏ أهمية التكامل بين المحللين الآليين الصرفي والنحوي» نظراً لتداخل المستويين 
d ral‏ والنحوي» حيث يقدّم المحلل النحوي توقعات نحوية لنوعية الكلمات» 
وخصائصها حسب موقعها في الجملة» ولهذه التوقعات أهمية بالغة في تسهيل عمل 
لمحلل الصرفي عند تحليل نصوص غير مشكولة حيث ينحصر نطاق اللبس الصرفي 
في حدود الاحتتالات الصرفية المقبولة نحويا حسب مقتضيات الحملة رهن التحليل. 

-o‏ أن يتعامل المحلل الصرفي مع جذور اللغة العربية جميعها (الثلاثية والرباعية 
والخاسية). 

5- فصل قواعد المعطيات”" المرافقة للمحلل» والقواعد الصرفية عن برنامج 
التحليل؛ ليكون تعديل القواعد» وتحديث قواعد المعطيات أيسر وأسهل» حيث عانت 


YA ص‎ e 1484م‎ cbs اللغة العربية والحاسوب دراسة بحثية )» تعريب»‎ Je نبيل‎ -١ 

-Y‏ يقصد بقاعدة المعطيات (البيانات) مجموعة من الملفات ذات الصلة ببعضهاء ففى قاعدة معطيات صرفية de-‏ سبيل 
المثال- يمكن أن تكون هناك عدة ملفات مترابطة مع بعضها. مثل: ملف الجذور وملف الأفعال الثلائية المجردة والمزيدة» 
وملف الأفعال الرباعية المجردة والمزيدة» والأفعال الملحقة بالرباعي...إلخ. ولعل من أهم خصائص قواعد المعطيات: 
الشمول» والوضوح والدقة» وقابلية التوسع والتعديل. 
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المحاولات الأول لبناء محلل صرف آلي للغة العربية من الخلط بين الجانب اللغوي» 
والجانب البرنجي. 

۷- ضرورة تعريض المحلل الصرفي لتجارب مختلفة للتأكد من سلامة بناء 
خوارزميات التحليل» وكفاية قواعد المعطيات. 

۸- ضرورة توفر عنصر الكفاءة والسرعة في المحلل الآلي. 

4- الالتزام بها حلص إليه البحث الصرفي الحديث من حيث اعتبار الكلمة (كتب» 
استخرج) - دون غيرهاء هي أساس تصريف الأفعال» وجعل الجذر (ك ت ب) أساسا 
لعملية الاشتقاق» واستخدام الأساليب المنهجية الحديثة في صياغة القواعد الصرفية 
OU e‏ 

وأخيراً فإنَّه لبناء محلل صرفي دقيق لكلمات اللغة العربية ينبغي تطوير محلل صر في آلي 
يفسر جنيع مكونات كلمات اللغة انطلاقاً من المورفيهات التي تتكون منها الكلمة» مع 
الأخذ في الاعتبار كل الظواهر الصوتية التي تظهر عند كتابة الكلمة. 

4. منتهى غايتنا عند بناء محلل صرني حاسوبي 

إن منتهى غايتنا عند بناء محلل صرفي حاسوبي لتحليل كلمات اللغة العربية ونصوصها 
هو أن بيع للحاسوب p pid AUS‏ تشه ما بكرن للإانسان سين عقيل كلات اللخ 
ويدركهاء ويفهمهاء ثم يحللهاء ويعيد توليدها. والكفاية اللغوية الحاسوبية مرتهنة 
بثلاثة ضوابط» هي: -١‏ الضابط الإملائي. ۲- الضابط الصرفي. -Y‏ الضابط النحوي. 


-١‏ يُنظر: علي» Es‏ اللغة العربية والحاسوبء تعریب» ۱۹۸۸ م» ص711-1799. 
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١‏ . خاتمة 

d‏ ختام هذا الببحث يمكننا أن تستنتج Of‏ تطوير cose‏ صرفية آلية للغة العربية 
قد أحرز تقدماً كبيراً في السنوات الأخيرة» خاصة بعد توافر مجموعة من الأدوات التي 
ينه اللقووة والحاسوبيين من اختبار مدى كفاية المحللات الصرفية الآلية التي 
طوّرتها مراكز الأبحاث والشركات. 

فكان هناك عدة محاولات لتطوير نظم آلية لتحليل كلمات اللغة العربية» بعضها 
يفترض وجود التشكيل الكامل» والبعض الآخر يفترض غيابه بالكامل» ومعظمها 
يتعامل مع الميزان الصرنيء أي الشكل النهائي للكلمة» لا مع الصيغة الصرفية؛ وذلك 
هروباً من مشکلات الإعلال والإبدال. ol e‏ الهمدف بناء محلل Jl d‏ متعدد 
الأطوارء قادر على تحليل الكلمات المشكولة كلياً أو جزئياًء أو غير المشكولة عن طريق 
تطبيق أساليب الذكاء الاصطناعي» ويعتمد على الصيغة الصرفية» ويكشف عن 
الانحرافات الصوتية التي حدثت في الكلمة؛ كحالات الإعلال والإبدال والتضعيف. 

و عل اطليل idle sadi‏ ل ره عر العف cd‏ الاعات اة د 
الأول بوجده في المملكة المغربية بالتعاون مع المنظمة العربية للتربية والثقافة والعلوم 
(CS SUD‏ ومدينة الملك عبد العزيز للعلوم والتقنية بالمملكة العربية- بحق نقلة نوعية 
كبيرة جداً في ue‏ معالجة كلمات اللغة العربية حاسوبياً؛ حيث تمكن القائمون على هذا 
المحلل من جعل الحاسوب يتعامل مع اللغة بشكل يحاكي الطريقة التي يستخدمها 
الإنسان ace‏ ليل cols‏ اللغة العربية. 

وهنا Y‏ من التنبيه إلى أن نجاح برامج معالجحة اللغات الطبيعية صرفياً يتوقف على 
مدى وضوح النظرية اللغوية التي يتبناها مطورو المحللات SII‏ ومدى قدرتها على 
تحليل الكليات Luo eal y‏ غللا صحيحاً. 
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المراجع 
© تمام QU‏ اللغة العربية معناها ومبناها» دار الثقافة» المغرب» 144 e‏ 


© حسام الخطيب» العربية في عصر المعلوماتية - تحديات عاصفة ومواجهات 
متواضعة» ile‏ التعريب» المركز العربي للتعريب والترجمة والنشرء العدد الثاني 
ام 

© سعيد أحمد بيومي» el‏ اللغات -دراسة في خصائص اللغة العربية» والنهوض 
ا م 

© عبدالعزيز بن عبدالله المهيوبي» إشكاليّات تطوير محلل صرفي حاسوبي دقيق للغة 
العربية (محلل الخليل نموذجا)» مجلة اللغة العربية وتعليمها للناطقين بغيرهاء جامعة 
أفريقيا العالمية» العدد 5١‏ 5١١7م.‏ 

© عبدالعزيز بن عبدالله المهيوبي» بناء خوارزمية حاسوبية لتوليد الأفعال في اللغة 
العربية وتصريفها - دكتوراه' معهد تعليم اللغة العربية - جامعة الإمام محمد بن سعود 
الإسلامية, 575 —A‏ 

© عبدالله بن عبدالر حن c pal JE‏ العلاقة الصرفية بين الجذور والأوزان» (الأوراق 
البحثية للندوة الدولية الأولى عن الحاسب واللغة العربية) الرياض- السعودية» مدينة 
الملك عبد العزيز للعلوم والتقنية» ۷٠٠۲م‏ . 

© عبده ذياب العجيلى» الحاسوب واللغة العربية» منشورات جامعة اليرموك- 
عمادة البحث edad‏ الدرانيات العلياء الأردن» د ١19957 db‏ م. 

© عزت جهاد عزت العجوري» توصيف لغوي صرفي لشعر بدر شاكر السياب في 
ضوء اللسانيات الحاسوبية» رسالة ماجستير» الجامعة الحاشمية» ۲٠٠۹‏ م. 

© علي السليمان الصوينع» استرجاع المعلومات في اللغة العربية» مطبوعات مكتبة 
املك فهد الوطنية» السلسلة الثانية» الرياض» e AE‏ 

© لطيفة النجارء دور البنية الصرفية في وصف الظاهرة النحوية وتقعيدهاء دار 
البشيرء eA EC coe‏ 

© مازن الوعر» دراسات لسانية تطبيقية» دار طلاس» دمشق» AS CM‏ م. 

© محمود عوض المراكبي» تطويع تقنية المعلومات لخدمة العلوم الشرعية» السجل 
العلمي لندوة استخدام اللغة العربية في تقنية المعلومات» الریاض» VAY‏ م. 
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هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقيا 
أو تداولها تجاريا 


© محمود مصطفى عيسى خليل» إسناد الأفعال إلى الضمائر في ضوء اللسانيات 
الحاسوبي- ماجستير» كلية الدراسات العلياء الأردن» ١١١7م.‏ 

© مروان البواب» ومحمد الطيّان» أسلوب معالجة اللغة العربية في المعلوماتية 
(الكلمة - الجملة)» استخدام اللغة العربية في المعلوماتية. 

© مسفر حماس الدوسري» برمجة الاسم المنسوب بياء النسب في العربية حاسوبيا - 
رسالة دكتوراه» جامعة اليرموك - كلية الآداب» ١٠١5م.‏ 

© نبيل علي اللغة العربية والحاسوب ( دراسة بحثية )» تعريب» Y AAA cba‏ 

© نماد الموسى» العربية نحو توصيف جديد في ضوء اللسانيات الحاسوبية» المؤسسة 
العربية للدراسات والنشرء بيروت» طا gYtt‏ 

© هدى آل cab‏ النظام الصرفي للعربية في ضوء اللسانيات الحاسوبية «مثل من جمع 
التكسير»» رسالة دكتوراه» الجامعة الأردنية» O‏ ١٠5م.‏ 

© بحيى هلال» التحليل الصرفي للعربية» وقائع مختارة من ندوة استخدام اللغة 
العربية في الحاسب الآلي في الكويت. عنّانء دار الرازي. 
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هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجارياً 


الفصل الثالث 


التحليل النحوي 


أ. أحمد روبي محمد عبدالر ہن“ 


ملخص البحث 

تسعى هذه الدراسة إلى تقديم رؤية شاملة عن التحليل النحوي الحاسوبي في إطار 
تطبيقي» تحاول من خلاها الوقوف على منطلقات التحليل النحوي (التمثيل النحوي 
- النظرية النحوية - المحتوى النحوي) وأدواته في صورة مبسطة» بحيث تكون مدخلا 
مبسطًا للقارئ العربي» يمكن من خلالها فهم الصورة العامة لإطار التحليل النحوي 
الحاسوبي. وسعيًا لتحقيق هذه الغاية» فقد لزم الوقوف على قوام العملية النحوية/ 
التركيبية ودورها في بناء التطبيقات الحاسوبية المختلفة التى تناظر الأداء الإنساني؛ 
لذا تأتي الدراسة في خمسة محاور رئيسية: تتضمن مقدمة 8 من UA‏ تأصيل 
طرق التوصيف النحوي» ثم عرضًا لإرهاصات التحليل النحوي الحاسوبي» ثم أهمية 


-١‏ باحث لغوي حاسوبي في إحدى شركات البرمجيات بالقاهرة - مصر. حصل على درجة الماجستير في اللغويات 
الحاسوبية بتقدير ممتاز من قسم علم اللغة والدراسات السامية والشرقية بجامعة الفيوم - مصر. له عدة أبحاث حول 
بناء المدونات المعنونة نحويّاء وبناء قواعد البيانات الصوتية لمعالجة الكلام آليا. أنشأ s‏ شجريًا للغة العربية الفصحى 
المعاصرة. صمم محللا نحويًا يستند إلى طرق الذكاء الاصطناعي في REGI‏ الآلية. ساهم في العديد من المشروعات التي 
تعنى بحوسبة اللغة العربية» منها: بناء نظم حاسوبية لتحويل الكلام العربي المنطوق إلى مكتوب» والعكس. بناء نظام 
حاسوبي للتشكيل الآلي» التعرف الآلي على الكينونات الاسمية. مهتم بعلم اللغة الحاسوبي» ومعالجحة اللغة العربية GI‏ 
وكذلك اللغويات العصبية الحاسوبية. (ahmedaruby(ggmail.com)‏ 
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هذه الطبعة 

إهداء من المركز 

ولايسمح بنشرها ورقيا 
أو تداولها تجاريا 


التحليل النحوي الحاسوبي للدراسات اللغوية بصورة عامة وللغويات الحاسوبية أو 
معالحة اللغة الطبيعية بصورة ciol‏ ويلي ذلك الخطوات الإجرائية اللازمة لبناء أية 
عملية تحليل نحوي حاسويء والتي يمكن تلخيصها في العناصر التالية على الترتيب: 
(النص الخام/ المدونة اللغوية - تجزئة النصوص - العنونة بالأجزاء الكلامية - الترميز 
بالعلاقات التركيبية)» وأخيرا تعرض الدراسة بعض موارد التحليل النحوي المتاحة 
لل الغرية وكذلك BU dat‏ 
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هذه الطبعة 
إهداء من المركز 
ولايسمح بذ شرها ورقياً 
أو تداولها تجارياً 


الفصل الثالث: التحليل النحوي 


.١‏ المقدمة 
إن تزاوج الحاسوب مع غالبيّة العلوم الإنسانيّة لا سيا اللسانيات - بمفهومها 
الأعم - قد عزز من مناهجها ووسائلهاء وأسرع من حركة تطورهاء فضلًا عن تعاظم 
دورها في بناء المجتمعات الإنسانية؛ لذا أصبحت اللسانيات الحاسوبية بمستوياتها 
المختلفة الصوتية والصرفية والنّحويّة والدّلالية بمثابة المحرك الأسامي للعديد من 
الأنشطة الإنسانية باعتبارها الرهان الحقيقي لاقتصاد المعرفة في ظل الانفجار المعلوماتي 
من جانب» والدافع الأساسي Gi‏ بركب الثورة التكنولوجية من جانب آخر (روبي» 

CAR 
واللسائيات‎ E JE coL Ergo الا‎ UT VE Aa ”الس هو‎ DS وا‎ 
بين‎ dall! خلالها مسارات الافتراض‎ AE والبرمجيات باعتباره قنطرة الوصل التي‎ 
علوم اللغة وعلوم الحاسب» فضلًا عن كونه المسؤول عن توفير المعطيات اللازمة‎ 
Automated comprehension ver للتحليل اللغوي الأعمق» ألا وهو الفهم‎ 
فقد حاولت الدراسة وضع م إطارٍ عام‎ - (YYY ze AAA che) للنصوص اللغوية“‎ 
في‎ SU لعملية التحليل النحوي - في ضوء معالحة اللغة الطبيعية - يكون عاملا‎ 

محاولة فهم الأسس النظرية والتطبيقية لأي بناء نحوي يتوخى الطرق المنهجية. 
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هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقيا 
أو تداولها تجاريا 


١‏ التوصيف النحوي 
مقار ال ل إشكالية ما إظار معرق باهي الل البشري كان 
GI‏ على الباحثين الخوض في نقل المعرفة الذهنية إلى اتساق معر G‏ يتفق و طبيعة منحى 
الذكاء الاصطناعي معالجة اللغات الطبيعية في ضوء المناهل المعرفية الجديدة» وذلك 
باستخدام أدوات التوصيف المختلفة. 
وقد رسم علّماء ء العربية صورة توصيفية للبنية اللغوية داخل عقول أبنائها تنطلق من 
عرض معطياتٍ النظام الكل عن طريق وصف الأداء الكلاميٌ؛ إذ كان الوصف باللغةٍ 
هو الطريقة المخلى -آنذاك- لاستشفافي تجلياتٍ اللغة في العقل الإنسانٌ أي: تجريدها في 
عددٍ محدودٍ من القواعد والقوانين» وقد اتخذ علماء النحو في صيرورة الوصف مناهج 
متباينة» تنتحي جميعُها بِعَرْضٍ تجليات النظم في التركيب الجملي لمن ينشدون تعلمَ 
العربية فحسب (الموسى» ١٠٠۲م: QU‏ 
ثم يتوجه الوصفٌ في إطار تشكل اللسانيات بمفهومها الأعم إلى التوصيف 
والتمثيل اللذين يستندان إلى المنطق الرياضي في توصيف العموم اللغوي بغرض بناء 
Bt‏ تحاكي اللغةً في العقل الإنساني. 
EA 11‏ الذهية Àj gol‏ 


أجمع باحثو اللسانيات العصبية NeuroLinguistics‏ - من خلال التجارب - أن 
المنطقة اليسرق مخ gw gen‏ الأمامي Left anterior Temporal Lobe‏ تطبق 
ey‏ ما من المعالحة النحوية الأساسية )2014 lis; (Hale & Callaway,‏ ما يدعم 
مسألة وجودٍ نمط معينٍ Ud‏ بالدماغ البشريء إلا ecl‏ اختلفوا في تفسير نوع هذه 
المعالجة» حيث ما زال يكتنفها الغموض AOA Y Tga)‏ 

ومع ذلك يجتهد علماء ء اللغة محاولين تمثيل تلك المعالحة النحوية الموجودة في الذهن 
البشري من خلال تصميم البناء الهندسي للفضاء للحي ats‏ ی 
ينطلق من مسلمة ذهنية USUS‏ ”أن المعنى في اللغة الطبيعية بنية معلوماتٍ مرمّزةٍ في 
الذهن البشري أو هو تمثيل ذهني» ومن Op ied‏ المعلوماتٍ التي تحملّها اللغةٌ مصوغة 
بالطريقة التي RÉS‏ بها الذهنٌ التجربة“ (غاليم (0A: 2h ١١»‏ 

وانطلاقا من هذا الإطار التصويري لبنية المعنى داخلٌ الذهنء قد افترض التوليديون 
والتحليليون وغيثهم من ele‏ اللغة أصحاب النظريات النحوية الحديثة نموذجًا 
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هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجارياً 


افتراضيًا لشكل المعرفة النحوية في ذلك aa‏ الصَّذْغىء يتمثل في أن المعرفةً النحوية 
عبارةٌ عن وحداتٍ مترابطة أو متداخلةٍ تتفرّع عن بعضها البعض (1992: 227-251 
.)Dirven, & Langacker‏ وتأتى ذلك هم Aa‏ من شكل المشتبكات العصبية 
65 في الخلايا العصبية المسؤولة عن نقل الإشارات الكهربائية - التى تحمل 
المعلوماتٍ - بين تلك الخلايا (شريف», Y‏ ١5م:‏ 01-00( 

٠,١ ١‏ التحليل النحوى في إطار المنطق الرياضى 

حاول العلماء تطبيق القوانينٍ الرياضية والمنطقية لنقل أنساق هذا النموذج المعرفي 
الذهني إلى أنساق صورية؛ لمحاولة S‏ هذا العالم الخفي وإدراك البنية العقلية اللغوية 
في صورة ملموسة» فانطلقوا جميعا من مسلمة USUS‏ أن النموذجٌ النحويّ الافتراضيّ 
يتمثل في عدد محدود من العلاقات والقيود. تتدرّج فيا بينها في هيكل تنظيميٌ أي: 
شجري (روبي» ANOR eY NT‏ 

ثم أثمر تطبيق المنطق الرياضي في صوغه للنموذج النحوي الذهني تمثيلين Cg sed‏ 
تعددت في إطارهما العديدٌ من النظرياتِ النحوية الحديثة» وهما: 

Constituency Representation j Sl التمثيل‎ e 

”هو بنيةٌ شجريةٌ منظمةٌ» تنتظم فيها كلماثٌ الجملة في شكل مركباتٍ أو مكوناتٍ 
نحوية تبعًا لنظام نحويٌ» بحيث تظهر فيها الكلماث Terminal isle A45‏ والمركبات 
Jas‏ غير .Non-Terminal isle‏ وهو ما يعرف ب أشجار بنية العبارة.“ (روبي؛» 
OR EDS 5‏ ويوضح الشكل التالي الصورة الكلية لتنظيم البنية الشجرية في إطار 
هذا jail‏ 


-١‏ المقصود بالتمثيل النحوي هو تصوير بنية الجملة داخل الذهن في صورة مرئية - استنادًا إلى الأدوات الرياضية 
واللغوية - يمكن من خلالها تلمس مواضع الكلمات والعلاقات في أبنية الجمل. 
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هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجاريا 


Root Node 


UT ~ ROOT 


Non-Terminal Nodes 
<P XP 


yen Nodes SN AN 
X X X hd 


حيث X‏ تعنى الكلمات أو الوحدات» (XP) X Phrase. cas‏ تعنى المركبات أو 
الكونات النحوية ( مركب اسمي» مركب فعلي» مركب l Cga‏ 

ويتم عادة تنظيم هذه البنية NETT‏ أو ا عن طريق التقويس Bracketing‏ 
بحيث تظهر العلاقات kes‏ في صورة اعتادية(:2012 Pustejovsky & Stubbs,‏ 
(I8‏ وقد اعتمدها عالم اللغويات الحديثة نعوم تشومسكي في تمثيليه لقواعد النحو 
المتحرر من السياق )433 :2007 Gurafsky & Martin,‏ إذ هى الطريقة UAI‏ في Je‏ 
loot‏ 5 العيارة حاسويياء ويمكن تفيل الف السابق peel‏ هذه الطريقة في 
التوصيف. كا يلي: 


دو/ ب 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجارياً 


(ROOT 
(XP 
(X) 
(X)) 
(XP 
(X) 
(X))) 


Bracketing ye l مثال لكتابة البنية الشجرية عن طريق‎ Y: 15 2I 


والجدير بالذكر أن أصل أي تحليل نحوي يستند إلى التمثيل المكوني في التحليل» 
ينطلق في الأساس من التقويس» ثم يمكن تحويله - آليا - لشكل شجري - يمكن 
قراءته بسهولة = باستخدام العديد من الأدوات والحزم البرمجية مثل & stanford-‏ 
tregex Const Tree Viewer‏ - التى تعتمد بصورة سافرة على lu‏ عمليات ترتيب 
الأقواس. ۰ 

Representation Dependency التمثيل الاعتادي‎ o 

”هو is‏ شجريةٌ منظمة» تننظم فيها US‏ الجملة في شكل عَلاقات مكونة من 
مسيطر وتابع أو عدة توابع» بحيث تظهر SUSI Les‏ کعقد هائية Terminal‏ فقط. 
وهو ما يعرف بأشجار بنية الاعتمادية “(روبي» 57 . ويوضح الشكل التالي 

يقة تنظيم الكلمات في إطار هذا التمثيل من خلال نموذج من البنيات الاعتمادية: 
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هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقيا 
أو تداولها تجارياً 


الشكل: تمثيل البنية الشجرية الاعتمادية (روبي» أجمد 5١١٠م (Mo‏ 

يلاحظ في هذا الشكل الشجري تدرّج الوحدات من نقطة التمركز الرئيسي ألا وهي 
الفعل إلى نقاط فرعية أخرى تباعًا لمدى قوة الارتباط بالنقطة الأم» فنجد تدرج وحدقي 
« عبد Gl‏ و « اللبن» في مرتبة مباشرة للفعل» حيث يحتلان موقعي الفاعلية والمفعولية» 
أما وحدة « الساخن» فهي في مرتبة مباشرة لوحدة « اللبن)» حيث إنها صفة لمفعولٍ. 

ويتم تنظيم هذه البنية الشجرية أو كتابتها عن طريق تمثيلها في صورة جدولية» محددة 
Óla -‏ - عدد الأعمدة التي تتوافق مع المعطيات اللغوية المنشودة» وذلك بغرض 
توحيد شكل الوثيقة من حيث المتهجات Vectors‏ والمصفوفات Matrixes‏ ؛ لتكون 
مهيئة لنظم تقنيات التعلم الآلي - فيهما بعد - لبناء المحللات النحوية. ولعل أشهر 
طريقة تقوم على توصيف البنية الشجرية الاعتادية وتنظيمها في صفوف وأعمدة هي 
هيكلة کنل CoNLL Format‏ التي قد تختلف من عام لآخر في تحديد عدد الأعمدة 
حسب| يقررها المؤتمر السنوي - لتعليم اللغة الطبيعية The Conference on Natural‏ 
(Language Learning (CoNLL‏ للآليات البرمجية - في ضوء الهدف المنشود. 


ويمكن تمثيل الشكل السابق باستخدام هذه الطريقة في التوصيف. كا يلي: 
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الجدول:١‏ تمثيل البنية الاعتمادية UK‏ كنل CoNLL‏ 


وقد تم تمثيل هذه البنية الشجرية في صورة جدولية وفقًا للهيكلة Formatting‏ 
والمعطيات اللغوية اللتين يعتمدهما محلل نوح سميث المسمى ب Gl)‏ إذ يلاحظ 
اعتهاده على الميكلة الشائعة - في توصيف المدونات اللغوية توصيفا نحويًا - التي 
تشتمل عل عشرة أعمدة, 

وإذا كان التمثيل المكوني ينطلق في التحليل أو الترميز من التقويس ثم بالإمكان 
تحويليه إلى صورة مرئية (شجرية)» فإن التمثيل الاعتمادي يستند بصورة رئيسية إلى 
هيكلة كنل في التحليل» مع الإمكان - أيضا - تحويلها إلى صورة شجرية باستخدام 
العديد من الادوات الحاسوبية مثل أداة ”° Dependency Viewer‏ مفتوحة المصدر 
للباحث الصيني جوانجشاو Guangchao Tang‏ بجامعة نانجينغ Nanjing‏ 
university‏ الصينية(2012 (Dependency Viewer, Computer Software,‏ . 


؟. إرهاصات التحليل النحوي الحاسوبي 

حظيت A‏ الإنجليزية دون غيرها من اللّغات الأخرى بالسبق e‏ لوجي» نظرًا 
لزووها E‏ فق sail‏ اة ا امت جوا el ld‏ بين فاك 
المجتمعات العلمية لكونها لغة الأبحاث العلمية منذ قرونٍ عديدة» فلا غَرْو أن تنبت 
الأسس التنظيرية والتطبيقيّة لأدوات لفل اعرا ا 


-١‏ قامت جامعة كارنجي ميلون Carnegie Mellon‏ برعاية هذا المشروع بقيادة الأستاذ الدكتور نوح سميث؛» ويمكن 
الاطلاع على هذا المشروع عن طريق الموقع التالي: Noahs Ark: http://www.cs.cmu.edu/-ark‏ 


Y‏ 7 يمكن تحميل هذه الأداة من خلال الموقع التالي: 
http://nlp.nju.edu.cn/tanggc/tools/DependencyViewer en.html‏ 
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ومع ظهور نظربّة المعلومات في بداية التصف الثاني من القرن العشرين على يد 
الأمريكيٌ كلود فان ات A‏ ن الا و الأحصاء تخطو PIE dol‏ 
بناء i ce‏ قائمة على الاحتال الإحصائي ERU A Jii ope‏ المختلفة» 
بقياس ARS‏ المعلومات التي تتضمنها تلك المعطيات ie JI AFAI Ep A‏ 
على يد ا و ماركوف Markov‏ في تأسيسه لمعاللحة السلاسل time series ial‏ 
وغلذفات الارماط ين dtl‏ رای كت من اول الظراعر ال C53 ll‏ 
كل تخ الأشارة AU XS all‏ م اللي كما مكنت من إقامة eu‏ احا اله 
كيك mue E‏ التلازم caló AET H‏ وتستخدم هذه 
النماذج حاليًا في النظم SI‏ للترجمة Ics aL‏ والتّدخيص وقهم النصوص والتحليل 
التركيبي de)‏ وحجازي» م (YA‏ 

ثم توالى الاهتهام من قبل الجامعات والمراكز البحثية ببناء موارد لغوية تستند إلى 
التوصيف النحوي؛ لاستخدامها في بناء نماذج إحصائية» يمكن من خلاها إدراك العلاقات 
والمتلازمات في أبنية الجمل» فكانت أول محاولة لبناء مدونة موصّفة نحويا في عام ig VAV*‏ 
حيث أعلنت جامعة لند Lund‏ السويدية عن شروعها في بناء مدونة معنونة بالعلاقات 
النحوية للغة السويدية بقيادة أولف تلمان Ulf Teleman‏ وزملائه بالجامعة نفسها؛ للوقوف 
على الاستخدامات النحوية لتك اللغة حينذاك 10 :2013 .(Garsid et) al.,‏ 

كما لم تقتصر مدونة لانكاستر-1810 للغة الإنجليزية المنطوقة على عنونة الملامح 
الصوتية فحسب» بل تطوّرت لتشمل العنونة النحوية» الأمر الذي يعود فيه الفضل 
إلى الحهود v3 8J5l JI‏ قام مها اللغوي السويدي Ellegrad‏ في عام «e YAVA‏ وتلميذه 
النجيب الباحث بجامعة غوتنبرغ 85 السويدية الذي عمد إلى تحليل جزء من 
مدونة بروان تحليلاً نحويًا عن طريق المعالجة اليدوية الخالصة؛ إذ بدأ يتبلوّر فيها المنهج» 
ويتضح ملاغه» auta‏ دعائمه )10 :2013 (Garsid et al.,‏ . 

وني مطلع عام ام قرر فريق بحثي بجامعة نيجمجن Nijmegen‏ ال مولندية 
البدء في وضع منهجية متكاملة لعنونة المدونات اللغوية» سمّيت ب توسكا TOSCA)‏ 
(Tools for Syntactic Corpus Analysis‏ وذلك ہدف بناء موارد لغوية؛ للإفادة 
منها في الدراسات النحوية واستخدامات اللغة» وقد أفادت منها في عنونة مدونة 
نيجمجن )223 :1998 .(Corpus Nijmegen Kennedy,‏ 
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كا حاول الفريق البحثي بجامعة لانكاستر الذي أشرف على إنجاز مشروع عنونة 
مُدوّنة لانكاستر-أوسلو للإنجليزيّة البريطانيّة (LOB)‏ أن يحلل المدونة نفسها تحليلا 
ag‏ باستخدام المناهج أو الطرق PAPE‏ إلا أن حدود إمكانات العتاد الحاسوبي 
ia o) Hardware‏ المعالجة المركزية» وحدة الذاكرة» وسائل تخزين البيانات» ملحقات 
الإدخال والإخراج) والإفراط في هندسة البر ميات Software‏ ) نظم التشغيل» نظم 
قواعد البيانات» لغات البرمجة» نظم نقل البيانات) منعتا من JUS]‏ هذه المهمة Garsid)‏ 
Cet al., 2013: 10‏ . 

وفي الفترة ما بين ١۱۹۸م‏ إلى ٠114١م,‏ بدأت تنضج ثار هذه المدونات الموصّفة 
بوصفها موردًا لغويا في بناء التطبيقات الحاسوبية للغات الطبيعية» فكان من ثارها بناء 
المحلّلات النحوية Syntactic Parsers‏ التى تفيد في الترحمة الآلية وفي أنظمة السؤال 
والجواب Question Answering‏ کے ات الببحث» وغيرها في متطلبات الفهم JYI‏ 
Automated comprehension‏ للنصوص اللغوية بشكل ge‏ 

ولما اتضح المنهج وتطورّت أدواته» ظهرت العديد من المشروعات اللغوية الكبرى 
التي تتبناها المؤسسات العلمية والتجارية» وتقوم عليها فرق عمل متكاملة؛ نظرًا 
لضخامة العمل الذي تعجز عن تحقيقه الجهود الفردية. ففي عام e VAY‏ تبنت وحدة 
أبحاث حوسبة اللغة الإنجليزية (UCREL)‏ بناء أول بنك شجري Treebank‏ في 
ضوء مدوّنة لانكاستر-1831 للغة الإنجليزية بريادة كل من روجر جارسيدي Roger‏ 
ئ وجيفيري ليتش «Geoffrey Leech‏ حيث راعت في تحليلها الاعتماد على 
التحليل ال ميكل Skeletal Parsing‏ لتحديد الفئة النحوية من حيث ila lg SS‏ كبرى 
clause (s D» 3| sentence‏ أوعبارة Phrase‏ عن طريق التقويس | ‘Bracketing‏ 
إلا آنا م ترق إلى استخدام النظرية النحوية» والبنية الرياضية في تمثيلها اليكل Gibbon)‏ 
.Cet al., 2000: 33‏ 


-١‏ نموذج من مدونة IBM‏ النحوية: 

S[Na I PP1A Na] [V can MD mt XNOT make VB V][N a AT club MM NJ][Tb[V pay ] 
[VB V] [N a AT player NN NJ[N[D so QL much AP D]J[N a AT week NN N]N] Tb]. . S 
للاطلاع على المدونة» يمكنك زيارة الموقع التالي:‎ 

WWwW.essex.ac.uk/linguistics/external/cImt/w3c/corpus ling/content/corpora/list/private/lan- 


caster.html 
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وني عام 0 (eA‏ شرعت شبكة البيانات اللغوية ببنسلفانيا Linguistic Data‏ 
Consortium (LDC)‏ في بناء بنك شجري للغة الإنجليزية بقيادة ميتشل ماركوس 
of; Mitchell Marcus‏ تايلور Ann Taylor‏ » تمهيدًا لتطوير تقنيات معالحة اللغة 
cin da‏ بت وضع البادئ Us JY‏ للعتولة» لتكون udo‏ عاديا LEE‏ 
في تطبيقهم على نصوص EI‏ والتي كانت تتضمن تخيرهما للمحتوى النحوي 
وتمثيله في إطار رياضى معتمدا على النظرية النحوية الوصفية Descriptive theory)‏ 
b. (Abeillé, 2003: 5‏ كانت هذه المرحلة أكثر نضجًا ونموًا من المراحل أو المشروعات 
السابقة غير آنا تنقصها الدقة والاكتال؛ نتيجة للغموض الحادث في التمثيل النحوي 
للجمل» ومع ذلك جلبت إليها الكثير من الباحثين والشركات التجارية في أنحاء العالم 
لاستخدام هذا المورد في أبحاثهم وتطبيقاتهم» كا مهدت الطريق أمام بناء العديد من 
البنوك الشجرية للعديد من اللغات الإنسانية. 

ثم انطلقت العديد من المؤسسات العلمية والتجارية”" في بناء البنوك الشجرية 
المختلفة للغة الإنجليزية على غرار بنك نسلفانيا الشجري» ثم توالى الشروع في 
مشروعات ماثلة لكثير من اللغات مثل اللغة البلغارية والصينية والتشيكية والداناركية 
والألمانية والفرنسية والعربية؛ للإسهام في مجال فهم اللغة الطبيعية ومعالجتها حاسوبيًا. 

وما تزال البنوك الشجرية Treebanks‏ أو المدوّنات الموصّفة نحويًا Parsed-‏ 
Tagged Corpora‏ بعيدة عن بلوغ حد JSI‏ لكنها في تطور دائم من الناحية 
المنهجية والنظرية في ظل ما يطرأ من نظريات لغوية حديثة ناتجة عن أثر التفاعل بين 
اللغة والفروع العلمية الأخرىء كا امتدت في بنائها إلى التحليل النصف Semi- J‏ 
Automatic‏ بعد أن كانت يدويّة خالصة» وذلك من خلال تمريرها على المحللات 
النحوية الإحصائية الناتجة عن تدريبها على المدوّنات Xo dM‏ نحويًا بالفعل حسب نوع 
التمثيل النحوي المستخدم سواء أكان بنية العبارة أو بنية الاعتمادية. 


بجامعة بنسلفانيا بالولايات النّحِدة الأمريكيّة: والمنظمة الدولية لمعاينة وثائق اللغة الإنجليزية في العصر الحديث والقرون 
الوسطى ICAME‏ وجامعة نيجمجن NIJMEGEN‏ به ولنداء وجامعة لَنْد LUND‏ بالسّويد» وجامعة ليدز Leeds‏ 
Gi y‏ 
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geste Een. Y 
تكمن أهميّة التحليل النحوي لِلّخويات العامة من جانبء إذ يمكن من خلاها‎ 
loe i pe لحري‎ eee inue اللّوية‎ s Ll التحقق من فرضيّات‎ 
من فرضيّاتِ نحوية قائمة حول لغة معينة فضلًا‎ SUD المفاهيم اللغوية والنحوية- أو‎ 
المدروسة وتحديد خصائص علاقاتها‎ ailt عن رسم معالم واضحة لنظام الجملة في‎ 
وجوه الاتتلاف والاختلاف في بنية الجملة (عاشورء 4۲م فا‎ s ra التركيبية»‎ 
eie كما يستطيع‎ ٠ CREER STREET 
c سواء -من خلال التنقيب أو البحث في المدوّنات المحللة‎ m على‎ eot; 
على‎ eel معرفة السّمات اللّغوية لكلمة معينة وسياقها في الجملة واختلاف معانيها‎ 

„(Sharaf & Atwell, 2010: 2-3) السّياق والموضوع‎ 

وللّغويات الحاسوبية من جانب آخرٌء فهي قوام تطبيقات معالجة اللغة الطبيعية التي 
تناظر الأداء الإنساني» والتي يمكن تلخيصها في عنصرين أساسيين: 

e‏ المحللات النحوية 

تمثل تطبيقات التحليل النحوي (المحللات النحوية) صلب العديد من تطبيقات 
معالحة اللغة الطبيعية المختلفة مثل: الترجمة الآلية» إجابة الأسئلة» التدقيق النحوي» البحث 
الدلالي» التخاطب مع قواعد البيانات باللغة الطبيعية» فهم اللغة الطبيعية» وغيرها. 

٠‏ استخلاص المعلومات 

زات edat‏ سرو ie s‏ لل car‏ نالرات Hast‏ 
di a pal asc LI utat‏ سانا بم AEE‏ انمازت يكل الب T‏ 
col ala‏ والضيحفت ea LE colles ME‏ وقيرها من ذزاتر العارف tos MI‏ غا 
csl‏ إلى صعوبات Xr‏ في استخلاصها وتنقيتها من التَلوّث المعلوماق» فكان لزامًا على 
المعلوماتيين مواجهة هذه التّحديّات ببناء نظم برمجية قادرة على استخلاص cob yall‏ 


dne y‏ تتطلق من المعظيات اللعركة (ous E s‏ لعفن عن ual cs gt‏ روي 
(AY e17‏ 
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٤‏ . خطوات التحليل النحوى الحاسوبي 

تقتضى أية عملية تحليل نحوي الاستناد إلى عدة طرق إجرائية متدرجة» تنطلق من 
تحديد النص الخام ثم تقسيمه إلى أجزاء على مستوى الجملة والوحدات» Y pos‏ إلى 
تعيين المعلومات الابتدائية الممثلة في التعرف على أنواع الأجزاء الكلامية التي تساعد 
بدورها في تعبين العلاقات التركيبية. ويوضح الشكل التالي خطوات التحليل النحوي: 


Text Raw 


النص الخام 
Tokenization‏ 
تجزئة التصوص 
POS-Tagging‏ 
العتوتة الكلامية 
Syntactic Parsing‏ 
التحليل النحوي 


الشكل:؛ خطوات عملية التحليل النحوي. 

5 النص الخام / المدونة اللغوية Corpus‏ 

يمكن تعريف المدونة اللغوية بأنها كتلة غير منتظمة من النصوص المكتوبة أو 
المنطوقة؛ يمكن التعامل معها GT‏ والتحكم في بياناتها ومدخلاتها بالإضافة أو الحذف 
أو التعديل من خلال محررات النصوص(السعیده .)١ EY E A‏ 

واختيار نصوص المدونة اللغوية المعنية بالتحليل يعتمد على عدة معايبر يجب 
مراعاتها في ضوء ال هدف المنشود من التحليل» منها: 

- انتماء النصوص EY‏ مستوى ( الفصيح - المعاصر - العامي). 

- مصدر النصوص ١‏ الكتب - الصحف الورقية - الصحف الإلكترونية). 
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- طريقة اختيار النصوص (الحصر الشامل - العينات الإحصائية). 
- تنوع النصوص أو التركيز على نوع حدد من النصوص. 

Tokenization تجزئة النصوص‎ Y و‎ ٤ 
«يعتقد الباحثون في العلوم المعرفية أن إدراك المخ البشري للنص اللغوي وفهمه‎ 
يتم من خلال تقسيمه إلى مكونات أو وحدات منفصلة» ثم تنظيمها بطريقة متسلسلة»‎ 

بحيث تعمل الواحدة تلو الأخرى في الدماغ البشري)(روبي» EV eY ANT‏ 

وما يؤكد هذا الزعم أن تحليل النص لغويًا يتطلب مرتكرًا أساسيًا وهو تفكيك 
الوحدة النصية إلى مكوناتها الجزئية» بحيث تتيح UJ‏ معرفة بنياتها الداخلية» وإن توخي 
التحليل النحوي يتصل بتحليل الجملة إلى عناصرها الأولية للكشف عن علائقها 
وربط مكوناتها (روبي» 57١١5م: EV‏ 

ويشير مفهوم تجزئة النصوص إلى تقسيم النص -آليا- إلى وحدات منفصلة من 
خلال جملة من المعطيات اللغوية اللازمة التى تكون Wa‏ مستأنسًا للحاسوب في تعيينه 
إل هذه الى حدات )65 :2007 (Attia,‏ ` 

إذا كانت تجزئة النصوص هي العمود الفقري لتطبيقات معالجة اللغة الطبيعية» OP‏ 
دقة هذه التجزئة تنعكس على أداء التطبيقات اللغوية» كا اتضح في الشكل السابق. 
PILIS‏ ا الحة ال - على ثلاثة مستويات: 

Y, Y, 5‏ التجزئة على مستوى الحملة 

تتصل تجزئة الجملة بشكل عام بالتعرّف على معيار تحديد أبعاد الجملة الذي يمثله 
مقياس الشكل النحوي أو المعنى التام. ويتم التقسيم في تحديد أبعاد الجملة - حسب 
الإسناد والتركيب التام المفيد» وما بين الجمل من علاقات الربط بواسطة أدوات 
الاستئناف والعطف (روبي» EV uo e Y * V aed‏ 

واعات ا الشرصي Velo odas‏ ريا احور المي 
إلى جمل .(Habash & Faraj,125 :2009) ilas‏ إلا of‏ هذه الآلية تحتاج إلى تتمة 
الأدلة ليكتمل فيها من المحددات التي تبلغ حد الكفاية في تجزئة النص إلى جمل؛ U‏ في 
علامات الترقيم من لبس يشوبهاء فقد تعددت وظائفها في النص الكتابي بين وظيفتها 
الأساسية وما يتفرع منهاء فعلى سبيل المثال لا الحصر النقطة التي تستخدم كمحدد 


SA. 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقيا 
أو تداولها تجاريا 


للدلالة على Rives ble‏ تستخدم بين الاختصارات مثل د ص.د.ب» وغيرهاء 
وكذلك الفاصلة التى تعد ملمحًا Foot‏ للفصل بين الوحدات أو المكونات في الجملة» 
تستخدم حال الأرقام العشرية CEA eY NT cga)‏ 


٤‏ و7 Y‏ التجزئة على مستوى الوحدات/ العناصر الرئيسية 

العنصر اللغوي Token‏ هو أصغر وحدة نحوية» يمكن أن تكون كلمة أو جزءًا 
من الكلمة» أو تا اضطلاحياء أو مركا أو call  «(Attia, 2007: 65) ay‏ 
العناصر اللغوية الرئيسية هي الجزء الملموس من التحليل فيمكن أن نطلق عليها أيضا 
«وحدات التحليل اا( الدين» 06م (AA‏ 

والوحدة الرئيسة هي البناء اللغوي المتكامل سواء أكانت كلمة أو علامة أو Ey‏ 
Ax‏ غنض؟ | balal‏ في النص اللغوي. و تشتمل التجزئة على مستوى الوحدات أو 
العناصر الرئيسية Main Tokens‏ على ثلاثة مستويات: 

أ- الكلمة 

تعرّف الكلمة في اصطلاح اللغويين بأنها «صيغة ذات وظيفة لغوية معينة في تركيب 
الجملة» تقوم بدور وحدة من وحدات المعجم» وتصلح OM‏ تفرد» أو تحذف» أو تحشى» 
أو يغير موضعهاء أو يستبدل بها غيرها في السياق» وترجع مادتها غالبا إلى أصول 
ثلاثة»( حسان» 6م QW‏ 

Gi‏ في عرف الحاسوب» فهي حيّز من الحروف المتشابكة» أو الحروف المفردة أو 
العلامات» أو الرموز» يحيطه من جانبيه مساحات بيضاء .White Spaces‏ وهذه 
المساحات هى المعطيات التى تفضى إلى حدود الكلمة لتجزئة الوحدات الرئيسية في 
النص (السعيد» ١١١‏ م: $84 26 :2007 Curafsky, & Martin,‏ 

وثمة عديد من آليات تجزئة النصوص إلى وحدات رئيسية — وغالبًا هذه الآليات 
يتم إدراجها في المحللات النحوية - منها أداة التجزئة العربية Arabic Tokenizer‏ 
المدرجة في محلل ستانفورد التركيبي. 

ب-المركب غير الكلامي 

qe DN e 455 y كلمة فار‎ E, 
مثل: عبد الله» جاب الله أبو عيد» إسلام أون لاين» الصهيو أمريكي.‎ ٤ : ۰ 
الجيو إستراتيجية.‎ 


EM 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجارياً 


ويتم معالجة المركب غير الكلامي في النص اللغوي قبل إجراء عملية التجزئة من 
خلال وضع علامة الشرطة (-) بين الكلمة الأولى والكلمة الثانية؛ ليكونا في حكم 
الكلمة الواحدة. مثال ذلك : عبد-الله» جاد-الله. 

ج- الرمز أو العلامة 

يشمل جميع الرموز المستخدمة في النص العربي» مثل علامات الترقيم والأرقام» 
وغيرها من الرموز. 

Y LY , ٤‏ التجزئة على مستوى الوحدات/ العناصر الفرعية 

يكن أن Laudi ou‏ اللقوي. xl Lal‏ الفا لري ede‏ ستعرئ 
التحليل»(شمس الدين» 0 3 CA ie‏ إذ نجد أن العنصر اللغوي الرئيسي قد يكون 
مكونًا من مورفيم/ عنصر فرعي واحد أو أكثر من مورفيم» فعلى سبيل المثال يمكن 
للكلمة المفردة (العنصر الرئيسي) أن تشمل أربع وحدات فرعية سواء أكانت سوابق 
أو لواحق )65 :2007 .(Attia,‏ 

وتتوقف حدود عملية تجزئة العناصر الرئيسية إلى عناصر فرعية على طبيعة الغرض 
من البحث» أي ما العناصر الفرعية المراد تجزتتها من العناصر الرئيسية؟ ويقتفى 
لتحليل الجملة العربية تجزئة عناصرها الأساسية التى تكوّن العلاقات اا 
l E del‏ 

ولا كان الكلام سلسلة من الجزئيات المتتابعة» كان لزامًا على تلك الدراسة أن 
تعرض أنوع تلك الجزئيات: 

ثمة أنواع من c» Jl‏ اللصقية Concatenative Morphemes‏ في اللغة العربية: 
الجذع (Stem)‏ واللواصق (affixes)‏ والزوائد Clitics Jurafsky & ) (Clitics)‏ 
Martin, 2007: 7‏ ( . 

Stem e -Í‏ : هو جزء cel‏ من الكلمةء gi‏ مشتقًا أو جامداء وينتج عن 
اتحاد المورفيهات اللصقية للكلمة» ومن أمثلته: الجذع (كتب) الذي تكون عنه التركيب 
في(وسيكتبونها) والجذع (مكتب) في صيغة الجمع (المكتبات). 

ب- اللواصق :Affixes‏ هي مورفييات تتعلق بجذع الكلمة» وهناك نوعان من 
اللواصق: 


eiie 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقيا 
أو تداولها تجاريا 


)١‏ السوابق :(Prefixes)‏ والسابقة مورفيم يسبق الجذع في أوله» ومن أمثلته: نون 
في الفعل المضارع في ge‏ نعمل- DURS‏ 

(Y‏ اللواحق (Suffixes)‏ واللاحقة مورفيم يلحق الجذع في آخره» ومن أمثلته: 
الواو والنون في جمع SAL‏ السام في“ المسلمون-العاملون . 

ج- الزوائد :Clities‏ هي مورفيمات نحوية تكون مقيدة بكلمات أخرى» وتتعلق 
بجذع الكلمة بعد اللواصق. وهناك نوعان من الزوائد )65 :2007 (Attia,‏ 

O‏ الزوائد في بداية الكلمة (8:01165): فهي تشبه اللواصق» ولكنها تختلف 
ks‏ واضحا عن اللواصق التي تمثل جزءً! من الكلمة dL ias G pao‏ ومن أمثلتها: 
c‏ لك عطاقي ديع افيد ibo‏ 

eal الكلمة (111105»ه8): وهى التى تعقب الكلمة» مثل‎ ile الزوائد في‎ (Y 
o المتصلة.‎ 

وهناك العديد من الأدوات الحاسوبية - مفتوحة المصدر- التى تعمل على AE‏ 
الوحدات الفرعية في النص أشهرها أداة MADAMIRA‏ التي E‏ تطويرها من JE‏ 
فريق معالجحة اللغات الطبيعية بمركز أنظمة التعلم الحاسوبي بجامعة كولومبيا .CCLS‏ 

POS Tagging العنونة بالأجزاء الكلامية‎ Y, £ 

هي عمليّة تعيين الأجزاء KASI‏ وما تحمله من سمات صرف-نحويّة ÍS‏ كلمة 
منفردة بمعزلٍ من سياقها الإعراي في eal‏ وذلك بإلحاق كل مفردة برمز Tag‏ أو 
SUE e ol rye AD ga) ide‏ وما عكر دم Van, 1999: 3; )..5 el cols p‏ 
Attiya, 2004: 42‏ ) مثال ذلك: و قع ۷8/ الاختيار [NN‏ 

ويقتضي التوصيف أو العنونة منهجًا يستند إلى مبادئ نظرية تسوّغ التحليل والتأويل 
se VG‏ على الشمول والاختصار في اختيار مجموعة من المعطيات اللغوية Tags set‏ 
قثل تلكم المعلومات المنشودة» وعدم التناقض في التحليل بالتعرّف على النظائر في ضوء 
المعطيات (oY all)‏ اللغوية )220 :1998 (Kennedy,‏ . 

lacia‏ ا الك isla‏ التي تُصئّف مفردات النص 
في ضوء وصف الواقع اللغويء منها: 

.١‏ فئة خوجة الكلامية 
a Y‏ باك X‏ الكلامية 


Åy 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجارياً 


4 


M 


. فئة آر دي آي الكلامية 

. فئة القرينى الكلامية 

.٦‏ فئة كاليك الكلامية 

۷. الفئة الكلامية للنص القرآني 
A‏ فئة كاتب الكلامية 


o 


Syntactic annotation و £ الترميز بالعلاقات التركيبية‎ ٤ 

يتوخى الترميز بالعلاقات التركيبية عدة طرق إجرائية» لا تنفك إحداهن عن 
الأخرىء فهى بمثابة أجزاء اللوحة التشكيلية التى لا يكتمل معناها إلا إذا اتحدت 
وتكاملت m‏ البعض (2010 ks TIDE‏ الطرق: 

5 و5 و١‏ التمثيل النحو $ Syntactic Representation‏ 

ويمكن تعريف التمثيل النحوي بأنه النموذج الرياضي الذي يعرض بنية الجملة 
ككل ool ipe‏ النظرية i pel‏ رالرى poe‏ رد ed‏ هذا Jess‏ 
النحوي في توضيح طبيعة المعرفة وأنساقها والفهم والتأويل» d»‏ التقدم التقني 
للحوسبة computation‏ (الفهري» OAV ie NAA e‏ 

وهناك نوعان من التمثيل النحوي» تعددت في إطارهما العديد من النظريات 
النحوية أو الصورنة النحوية: 

Constituency Representation التمثيل المكوي‎ e 

تعددت النظم أو النماذج الرياضية التي تصور بنية الجملة إطار مكوني» حيث قدم 
تشومسكي في كتابه التراكيب النحوية عام ۷٥۱۹م‏ نموذجًا رياضيا يسمى بالنحو 
المتحرر من السياق Context-Free Grammars‏ “ - وهو النموذج الأكثر شهرة- 
يصف بنية الجملة استنادًا إلى عدد من القوانين التي تعبر عن أركان الجملة المتمثلة 
في الفئات الرئيسية (الاسمء الفعل» الصفةء...)» والمركبات (مركب اسمي» مركب 
-١‏ وهناك العديد من الصوريات النحوية Formalisms‏ التي انبثقت عن النحو المتحرر من السياق» منها: نحو بنية 
المقولات النحوية العامة (Generalized Phrase Structure Grammar (GPSG‏ نحو بنية المقولات النحوية المعتمد 


Lexical Func- المعجمى‎ | zb JI والنحو‎ (Head driven Phrase Structure Grammar (HPSG g Jud 
.(Categorical Grammar (CG والنحو المقولي‎ «(tional Grammar (LFG 


A rm 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجاريا 


فعلى»...) التى قد تكون مز G‏ من الفئات النحوية المتتالية أو تكون فئة نحوية واحدة. 
ويتم صياغة هذه القوانين في صورة هذه المعادلة: 


X Y 


خيث X. js JE‏ يشير إل padi‏ المفرد Gl single element‏ الورك Y‏ فشي إلى 
سلسلة مكونة من عنصر أو أكثر» وتتضح الصورة بالنظر للأمثلة التالية: 


VP V+NP (PP) (Adj) 
NP-N-*(NP) 
PP—P-NP 
وهذه القوانين وحدها لايمكن أن تصف أبنية الجملة» إذ لابد من إطار نظري‎ 
يمكن من خلاله تنظيم أو إحكام البنية التركيبية في الجملة. ىا لا يمكن أن يقدم الإطار‎ 
وسنتناول الإطار النظري‎ (Rambow, 2010) النظري دون هذه القوانين أو التمثيل‎ 


(النظرية النحوية) بالتفصيل في الخطوة الثالثة من خطوات التحليل النحوي. 
ويوضح الشكل التالي تمثيل بنية ا مكونية في إطار نموذج النحو المتحرر من السياق: 


-4£-— 


هذه الطبعة 


إهداء من المركز 
ل 
RoT‏ 
S‏ 
NE Le lll‏ 
VP ud‏ و 
ين NU‏ 
NP PP !‏ وقع 


ael‏ عهدية 


O التمثيل المكوني في إطار نموذج النحو المتحرر من السياق.‎ o: Jc 

وقدم أرفيند جوشي Aravind Joshi‏ عام QAO‏ ١م‏ نموذجًا راف Pe ce‏ 
الأقل ارتباطًا بالسياق Mildly Context-Sensitive Grammars‏ ينطلق من النحو 
المتحرر من السياق إلا أنه يستند إلى الأشجار المتجاورة - بدلا من قوانين بنية العبارة - 
في صياغته )19 :2000 .(Abeillé,‏ وهناك العديد من الصوريات Formalisms‏ التي 
تنبثق من هذا النموذج» أشهرها نحو الأشجارة المتجاورة (TAG) Tree Adjoining‏ 
15 الذي يصف بنية الجملة استنادًا إلى عدد من القوانين التي تعتمد على 
الاستبدال أو JAYI‏ والتجاور في أبنية الأشجار )3 :2005 Schmidt,‏ ويوضح 
الشكل التالي الصورة العامة لقوانين الاستبدال والتجاور في أبنية الأشجار: 


-١‏ يستند هذا المثال إلى النظرية الوصفية في تنظيم أبنية العوامل» معتمدًا على المعلومات أو المحتوى النحوي العام 
للمكونات ces LNP)‏ الاسمي» VP‏ المركب الفعلي» PP‏ المركب AAH‏ 


ه06 


هذه الطبعة 

إهداء من المركز 

ولايسمح بنشرها ورقيا 
أو تداولها تجارياً 


^ ۸ ) N 
a X V à / ! ۸ / E 
Lax (0048 dw 
--. À JA 4 LT 
5 
substitution adjoining 
° .(Abeillé, 2000: 19) الشكل:” الاستبدال والتجاور في نحو أشجار التجاور‎ 
يدف هذا النموذج الرياضي إلى تحليل أو تكوين الشجرة التحليلية للجملة في‎ 
والتجاور‎ Substitution صورة تسلسلية من الشجيرات استنادًا لعمليتي الاستبدال‎ 
اسللتين تحكمههما العلاقات - التى تبرزها النظرية النحوية - بين أجزاء‎ 8 
I] الشجيرات» إذ يتم استبدال الشجيرة الصغيرة بشجيرة أكبر في الجملة وهكذا ا حال‎ 
إذا كانت الشجيرة هى بنية وصفية‎ Gl c AST كانت الشجيرة الصغيرة جزءا من شجيرة‎ 
لشجرة أخرى» فيتم وضعها بالتجاور إلى أن يتم تكوين الشجرة النهائية للجملة.‎ 
ويعرض الشكل التالي تمثيل البنية المكونية في إطار نموذج النحو الأقل ارتباطًا‎ 
بالسياق (نحو الأشجار المتجاورة):‎ 


-١‏ هذا الرمز(!) يدل على الإحلال أو التبادل substitution‏ أما الرمز الآخر (#) يُرمز لعقدة القدم في حالة التجاور 
adjoining‏ 


esa os 


هذه الطبعة 


إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجاريا 
5 و اص 
o‏ #5 ك ^ vP‏ 
FS N E‏ 
VP1 NPO‏ 


> l 
G سه‎ 


الشكل:۷ التمثيل المكوني في إطار نموذج النحو الأقل ارتباطًا بالسياق(نحو الأشجار المتجاورة) 
O (Fraj, et al., 2008)‏ 


Representation Dependency التمثيل الاعتمادي‎ o 
في كتابه عناصر النحو التركيبي‎ (L.Tesnière) s قدم اللغوي الفرنسي لوسيان‎ 
عام 4 ١۱۹م نموذجًا رياضيًا ينطلق في تصوير بنية الجملة - في إطار اعتمادي - من نقطة‎ 
ويوضح‎ OY ig AAA التمركز الرأس ثم التابع ثم ما يتبع التابع وهكذا (البحيري»‎ 

الشكل التالي صورة هيكلة تمثيل البنية الاعتمادية: 


١‏ - يمكن تحميل هذه الأداة من خلال الموقع التالي: 
http://nlp.nju.edu.cn/tanggc/tools/DependencyViewer en.html‏ 


y= 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقيا 
أو تداولها تجارياً 


الشكل:۸ هيكلة تمثيل البنية الاعتادية. 

ويقتضي هذا التتابع أو التسلسل المتدرج في صورة اعتمادية إطارًا نظريًاء أي نظرية 
نحوية سواء أكانت وصفية أو تفسيرية» يمكن من خلاها إحكام البنية التركيبية في 
الجملة عن طريق العلاقات بين الكليات. 

وهناك العديد من الصوريات التي تنطلق من هذا النموذج الرياضي منها: نحو 
الكلمة Word Grammar‏ لمهدسون عام ۱۹۸€ ce‏ ونص المعنى Mining Text‏ لملكوك 
عام ۱۹۸٩‏ م» والنحو الارتباطي Link Grammar‏ لسليتور عام ۱۹۹۲ م. 

يعرض الشكل UII‏ نموذجًا للتمثيل الاعتمادي في إطار نحو تنيير» وهو ما يقارب 


كر acts ada‏ زليه ق الفح الي 
MOD‏ 
MOD‏ 
SBJ | IDF‏ 


! أحمد aee‏ — على الاختيار 


J.‏ 5 و 
CONJ V NOUN PREP NOUN NOUN PUNC‏ 


الشكل:4 التمثيل الاعتمادي في إطار نموذج تنيير الرياضي. D‏ 


-١‏ يستند هذا التحليل إلى معطيات النظرية الوصفية» تمثلا بالمعلومات التي أنتهجها بنك كولومبيا الشجري. 


"rr 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجارياً 


Syntactic Content |; المحتوى النحو‎ Y, و5‎ ٤ 
يشير مصطلح المحتوى النحوي إلى المعطيات النحوية التي أنتجتها لغة الوصف‎ 
من خلال التجريد والتوصيف للظاهرة اللغوية؛ لتشمل المقولاات‎ Meta Language 
والمكونات والرموز التي تعبّر عن القواعد والعلاقات النحوية» والتي يتعذر بدونها‎ 
النظرية النحوية: کا لا يمكن = أيضًا- أن تئل وحذها دون نظرية تحرية لكن‎ n 

يمكن أن نشير إليها فحسب أثناء العملية التعليمية )2010 .(Rambow,‏ 

وتتقيد المدونة اللغوية المعنية بالتحليل أو بالوصف للعلاقات التركيبية بعدد محدد 
من المعطيات النحوية Tag set‏ التي تخضع للهدف المنشود من البناء» ك تتقيد المعطيات 
بنوع التمثيل المتوخى في التحليل» إذ يقتضي التمثيل المكوني معطياتٍ حول الوحدات 
المكونة للجملة التي لا يتطلبها التمثيل الاعتمادي مثل ( نوع المركب» نوع الجمل» نوع 
الوحدات المكونة» الإشارات المشتركة «Co-indexing‏ الفصائل المحذوفة) ويقتضى 
التمثيل الاعتهادي بيان العلاقات النحوية الممثلة (الفاعلية» المفعولية»...) التي قد لا 
يقتضيها التمثيل المكوني. 

The syntactic theory النظرية النحوية‎ £ , £ , Y 

النظرية هي ”مجموعة متجانسة من المبادئ والأسس والقواعد, التي ينتظمها مفهوم 
مستوعب للكلام وأحكامه؛ قادر على إيصال الدلالات الصحيحة للمخاطب“(عفيفي» 
(VAY ٠‏ وتنطلق هذه المبادئ من تمثيل المعنى في إطار المعطيات النحوية التي 
تعد خصائص عامة في كثير من اللغات أو في اللغة المعينة. 

وتجدر الإشارة إلى أن اختيار نوع التمثيل النحوي يحدد اتجاهات النظرية المتوخاة ما 
بين النظام التحليلي أو التوليدي» حيث يتلاءم النظام التحليلي مع التمثيل الاعتمادي» 
بين| يتلاءم النظام التوليدي مع التمثيل المكوني (روبي» QV eY NT‏ 

وتدور النظريات النحوية في فلكين أساسين» فلك يعنى بمبادئ الوصف النحوي 
للغة o a‏ وفلك آخر يعنى بالمبادئ التفسيرية للظاهرة النحوية في جميع اللغات 
الإنسانية. أو بقول آخرء تدور النظريات النحوية فيا أرساه دي سوسير بجعل اللغة 
ظاهرة زمكانية يمكن وصفها وصمًا ÚT‏ وفيها افترضه تشومسكي حول النحو 
الكلى UG‏ بأنه موجود في أذهان الأطفال منذ الولادة» ويتمثل في مجموعة من المبادئ 
OVA aY VT cga) bbeii‏ 
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ومن ثم تبلورت النظريات النحوية - في إطار التمثيل النحوي - في نوعين: 

-١‏ النظرية الوصفية: هي ضرب من بيان مبادئ طرق انعقاد الربط والارتباط 
بضورة خكبة ن اما ر كلك يبان قوق الكرنات أو bda‏ روي 
ATS‏ 

وقد تم تطبيقها في إطار التمثيل المكوني في البنك الشجري العربي Arabic‏ 
Treebank‏ وفي إطار التمثيل الاعتمادي في بنك كو لومبيا الشجري .CATIB‏ 

"-النظرية التفسيرية: «هى مجموعة المبادئ المنظمة التى ينبغى أن يلحظها البحث 
od‏ ون سيف E‏ بين الات وتلتزم بها اللغات)(زكرياء (Vv ig AA‏ 
وهي ما تسمى بالقواعد ÉSI‏ أو النحو الكل الذي يقوم على المبادئ العامة General‏ 
19 المشتركة بين أنحاء اللغات. 

وقد تم تطبيقها في إطار التمثيل المكوني في البنك الشجري للغة الصينية CTB‏ 
حيث اعتمد على نظرية السين البارية X-bar‏ كأساس نظري» يمكن من خلاله تنظيم 
القوالب في ضوء الأحكام التركيبية. أما تطبيقها في إطار التمثيل الاعتمادي فقد تم 
تطبيقها من قبل جوكايم نيفر» وريان ماكدونالد وغيرهم في بناء مشروع الاعتاديات 
العالمية (UD) Universal Dependencies‏ لتوصيف اللغات الإنسانية بمنهجية 
اعتمادية واحدة» وذلك استنادًا للنظرية الاعتادية العامة التى وضعتها ماري مرنف 
أستاذة اللغويات الحاسوبية بجامعة ولاية أهاويو. l‏ 


ه. موارد التحليل التركيبى للغة العربية وتطبيقاته 

على الرغم من أن هناك فقرّا شديدًا في توفر الموارد اللغوية الموصفة للغة العربية» فإن 
هناك تقدمًا ملحوظًا في توصيف المدونات العربية توصيمًا eus‏ ومن ثم بناء النماذج 
الإحصائية للغة لإنتاج العديد من تطبيقات التحليل النحوي» والترجمة الآلية» وإجابة 
الأسئلة. 

ولعل أشهر مدونة نحوية للغة العربية هى تلك التى أنتجتها مؤسسة شبكة البيانات 
اللغوية Glas LBC‏ مدن مدولة نات لقان الشجري (PATB)‏ » تليها مدونة 
بنك براغ الاعتمادي (PADB)‏ إذ تتشاببان سييًا في مدى ثراء المعلومات اللغوية 
المقدمة مع الاختلاف الواضح فيا ee‏ في تمثيل تلكم المعلومات» فضلا عن الالتقاء 
في الغرض المنشود من البناء ألا وهو بناء محلل نحوي. 
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ثم قدم مؤخرًا مركز أنظمة التعلم الحاسوبي Center For Computational)‏ 
(Learning Systems‏ بجامعة كولومبيا Ko‏ شجريًا نحويًا (CATIB) OG‏ ينطلق 
من تقليص حجم المعلومات اللغويات المقدمة في المدونتين السابقتين» ومحاولة تجنب 
المعلومات التي لا فائدة منها بغية تسريع عملية الترميز .Annotation‏ 

ثم تعددت المحاولات الفردية للباحثين في عنونة بعض المدونات اللغوية صغيرة 
الحجم» بغرض تقديم الأطروحات العلمية والدراسات البحثية» منها: محاولة الباحث 
في أطروحته التي تقدم بها للحصول على درجة الماجستير في علم اللغة. 
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المراجع العربية 
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© زكريا (ميشال): الألسنية التوليدية وقواعد اللغة العربية (النظرية الألسنية)» 
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رسالة دكتوراة» جامعة القاهرة» ١١١5م.‏ 
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Yt oci all‏ 
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eU الفصل‎ 


التحليل الدلالى 
د. إشراق على أحمد o uel JE‏ 


يتطرق الفصل إلى علم التحليل الدلالي باعتباره فرعاً من فروع اللسانيات 
الحاسوبية ومعالجة اللغات الطبيعية» يقدم الفصل نبذة تعريفية عن التحليل الدلالي 
تشمل استعراضا لأهم المصطلحات المرتبطة بهذا المجال مثل المتضادات والمترادفات» 
إضافة للفرق بين المعنى الحرفي والمعنى العمل للنصوص. كما يشير الفصل إلى المنهج 
البحثي المستخدم في دراسة التحليل الدلاليء إضافة إلى أبرز الموارد اللغوية المتاحة مثل 
شبكة الكلمات العربية .CArabic WordNet)‏ يتطرق الفصل فيا يل ذلك إلى عدد من 
ارز عات هذا انان وه ليل cab all‏ ونك الليس الدالال» مم رقت 


-١‏ أستاذ مساعد في كلية علوم الحاسب JYI‏ بجامعة جازان. درست الماجستير والدكتوراه في جامعة هيروت وات 
الأسكتلندية. ها عدة أبحاث منشورة في اللسانيات الحاسوبية وتطبيقاتها لمعا لجة نصوص اللغة العربية والإنجليزية والتي 
تحور حول تخليل المشاغر باستخدام colas d‏ التعلم الآلي: إضافة إلى ذراسة Gol‏ صوص التضحى واللهجات 
المحلية» عملت الكاتبة كمحكمة لدى عدد من الدوريات العلمية والمؤتمرات الدولية. أنشأت عدداً من المدونات اللغوية 
التي خدمت عدداً كبيراً من الباحثين المهتمين بمجال تحليل العواطف في اللغة العربية والتي تم الرجوع ها أكثر من 
٠١‏ مرة (حسب موقع CS (ELRA‏ شاركت في مسابقات idle‏ للسانيات الحاسوبية مثل سلسلة SemEval‏ والتي تعد 
أكبر مسابقة للتحليل الدلالي لأهم لغات العالم مثل العربية والإنجليزية» وقد حصدت المركز الأول في فرع اللغة العربية 
في العام (eshragrefaee@gmail.com) .eY ١ VV‏ 
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كل منهماء واستعراض أبرز ما أنجز ee‏ من أبحاث وتطبيقات» كما يتطرق الفصل 
إلى الحديث عن الكينونات كمفهوم مهم عند دراسة التحليل الدلالي» ويعنى بدراسة 
الكلمات المجردة والعلاقات فيا بينها من حيث المعنى. في الجزء الأخير من الفصل 
نشير إلى أبرز الجهود البحثية في مجال التحليل الدلالي cS‏ يخص اللغة العربية» والتي 
قدمت من قبل مجموعات بحثية شهيرة حول العالم؛ حتى يتسنى للقارئ الاطلاع de‏ 
المخرجات البحثية الأحدث في هذا المجال. 
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الفصل الرابع: التحليل الدلالي 


.١‏ مقدمة 

التحليل الدلالي هو أحد eal, jul‏ فروع معالجة اللغة الطبيعية Natural)‏ 
(Language Processing -NLP‏ فهو تخصص یعنی بدراسة معنى التعابير اللغوية 
(Linguistic Expression)‏ (حبش والخليفة» (Y * YE‏ وله العديد من التطبيقات 
الحياتية الهامة الى سوف تستعرضها خلال هذا الفصل. 

Y‏ تعريف 

في علم اللغويات يعرف التحليل الدلالي على أنه دراسة معنى الكلمات في السياق» 
ويشير مانينق وشوتزي )1999 (Manning and Schütze,‏ إلى إمكانية تقسيم دراسة 
الدلالات (Semantics)‏ إلى شقين: 

. (Individual Words) .دراسة معنى الكلمات منفردة‎ Y 

(Combined Meaning) مجتمعة في عبارات أو جمل‎ cos due YI المعنى‎ Labs. Y 

في الشق الأول تظهر لدينا مفاهيم أساسية» أبرزها: 

المشترك اللفظى أو الجناس (Homonyms)‏ والتى يعرفها حبش والخليفة (Y VE)‏ 
على أنها حالة وجود كلمتين متشابهتين في الإملاء والنطق ولكنه| مختلفتين في المعنى» 
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على سبيل المثال كلمة «بيت» قد تعني مكان العيش أو بيت الشعر. 

الجناس الخطي (Homograph)‏ وهي الحالة التي يكون cS‏ فيها نفس 
الإملاء ولكن النطق يختلف. على سبيل JE‏ كلمة «حب» دون تشكيل قد تُنطق بضم 
الحاء «حب» أو فتحه «حَب»» وفي كل من الحالتين سيكون المعنى i‏ هذه الكلمة. 

التطابق اللفظي (Homophony)‏ هي أن يكون للكلمات نفس النطق ولكن مع 
الرسم الإملائي يختلف. على سبيل المثال كلمتي عصى وعصا. 

المتضادات (Antonyms)‏ هي كلات تحمل معاني متضادة» على سبيل المثال بارد 
وحار طويل وقصير. 

المترادفات (Synonyms)‏ وهي كلمات مختلفة ولكنها تحمل نفس المعنى» مثل سيارة 
ومركبة وكذلك بيت ودار. 

۳. التحليل à "PED‏ اللسانيات الحاسوبية 

انتهج علماء اللغة بناء مدونات لغوية ضخمة تحوي مفردات اللغة وعلاقتها ببعضها من 
حبق المعتى Le 4S)‏ متضادات أو متراةفات عل (OU Les‏ ومن اشهر تلك المدؤنات 
شبكة الكلمات )1998 (WordNet) (Fellbaum,‏ وهي قاعدة بيانات معجمية قابلة 
للقراءة بواسطة أجهزة الحاسب وتضم عدداً كبيراً جداً من الكلمات على شكل مجموعات 
يطلق عليها المجموعات المترادفة ((Synsets)‏ إذ تعتبر كل مجموعه مترادفة مثلة لمفهوم 
فريد من نوعه وتضم كل المرادفات المعرفية (Cognitive synonyms)‏ لذلك «e seal‏ 
فمثلا في نفس المجموعة المترادفة التي تضم كلمة ”بارد“ قد نجد كلمات مثل AT‏ و 
”قارس“ و“تجمد“ ومن الممكن أن ترتبط كلمة ”يتبع“ بمفردات مثل ”يلحق "و “يتعقب” 
و يطيع” )2002 (aap and Marx,‏ وترتبط كل مجموعة مترادفة (Synset)‏ بدورها مع 
le qut‏ أخر ى باستخدام العلاقات الدلالية مثل علاقات التضمين «(Hyponomy)‏ 
فمثلا كلمة ”رجل“ تندرج تحت مجال أوسع وهو كلمة ”إنسان“ وكلمة ”قطار“ تندرج 
تحت Jue‏ ”وسائل النقل ٠“‏ وكذلك علاقة الاشتال (Hypernymy)‏ وهي علاقة 
اشتهال كلمة في مجال دلالي لكلمة أخرىء فمثلا كلمة ”حيوان“ شاملة لكلمة ”قطة“ 
«(Fellbaum,1998)‏ انظر الرسم التوضيحي à‏ الشكل .١‏ 
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من صنع الانسان 


وسيلة نقل,توصيل 


TM‏ | دراجة هوائية 


شاحنة | سيارة | 


الشكل :١‏ مثال لارتباط الكلمات داخل شبكة الكلمات بناء على معانيها Simpson and Dao,)‏ 
.Q016‏ 

وتعد شبكة بريستون الإنجليزية أول شبكة من نوعها في هذا المجال Fellbaum,)‏ 
ig «(1998; Princeton University, 2010‏ العام 5 بدأت الجهود بالتضافر لبناء 
شبكة مماثلة للغة العربية Arabic WordNet - (AWN)‏ والتى تستند في تصميمها على 
شبكة بريستوة الاتجليرية» إذ clas‏ جمرعة امترادفانت o dI‏ با يقايلها في الشركة 
الإنجليزية من حيث المعنى. 

بعد أن يتم تحديد معنى الكلمات منفردة عبر وسائط مثل شبكة الكلمات فعندئذ 
اا id uad‏ انض pe jo ss Ma due I‏ عا ق 
(Manning and Schütze, 1999 )‏ الذي سبقت الإشارة إليه. 


f Semantics vs. Pragmatics أم المعني الفعلي‎ gH المعنى‎ ۳ 

في تحديد المعنى الإجالي للكلام يظهر لدينا مفهومان مهمان هما: 

.١‏ المعنى ا حرفي (Semantics)‏ وهو معنى الكلءات في اللغة بناء على موقعها من 
الإعراب. مثلا كلمة «هم» يتغير معناها حسب موقعها الإعرابي» فإما أن تكون ضميرا 
«هُم يلعبون بالكرة» أو Col‏ كا في «أدركني في هذا الشأن هم وحزن». 

۲. المعنى الفعلى / العملى (Pragmatic)‏ وهو المعنى الذي نستنتجه بناء على معر فتنا 
لسياق الكلام )2012 Cras:‏ فمثلا ”حضر موت“ معناها الحرفي هو حضور الموت 
ولكن غالبا ما سيكون معناها الفعلي هو مدينة حضرموت اليمنية المعروفة» مثال آخر 
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هو كلمة ”عين“ معناها المباشر غالبا هو العين البشرية» ولكن معناها الفعلي قد يتغير 
حسب السياق الذي ترد فيه لتعني: 

حرف العينء أو عين ce‏ أو عين الحسد, أو مدينة العين في دولة الإمارات. 

ما تقدم له دلالة هامة» وهي أن تحديد المعنى الكلي للجملة مشكلة معقدة 
(Complex problem)‏ مما جعلها مسألة ذات أهمية بالغة في معالجحة اللغة الطبيعية 
واللسانيات الحاسوبية. إذ إن اللغة الطبيعية لا تخضع (alo‏ لمبدأ تراكبية Principle), gall‏ 
of compositionality‏ وهي أن معنى الجملة الكل يمكن معرفته بالضرورة بناء على 
المعنى الفردي للكلمات المكونة لتلك (Manning and Schütze, 1999 ) iht‏ $$( 
اتضح لدينا من الأمثلة السابقة يمكن لمعنى الكلمات أن يتغير بتغير موقعها الإعرابي 
وكذلك بتغير سياق الكلام. 

(Idioms) التعبير المجازي‎ Y , Y 

(Semantics) o YY الجوانب الحامة التي يجدر الإشارة إليها عند دراسة‎ M 
هو التعبير المجازي» وهو استخدام الكلمات في غير معناها الظاهرء فمثلا قولنا ”ريت‎ 
أسدا يكر على العدو بسيفه“ يتضح منها أن الأسد هو استخدام مجازي يقصد به‎ 
الشخص صاحب الشجاعة والإقدام وليس المعنى الظاهر وهو أن الأسد يحمل سيفا.‎ 

التحليل الدلالي له عدة تطبيقات هامة في مجال اللسانيات الحاسوبية» أبرزها 

هو فك اللبس الدلالي (Word. sense disambiguation)‏ وتحليل المشاعر 

(Sentiment analysis)‏ والتي سنتطرق إليها في ثنايا هذا الفصل. 


Word Sense Disambiguation فك اللبس الدلالي‎ . ٤ 

يعر ف الموجي وآخرون )2008 (Elmougy et al.,‏ فك اللبس الدلالي (WSD)‏ 
ub‏ عملية اختيار معنى لكلمة تحمل معاني متعددة بحيث يتناسب ذلك المعنى مع 
السياق الذي تظهر فيه تلك الكلمة وبحيث يكون الاختيار من مجموعة معانٍ معروفة 
ومحددة مسبقا. 
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"Word Sense Disambiguation (WSD) is the process of selecting a 
sense of an ambiguous word in a given context from a set of predefined 
senses ". 
ما تم التطرق له في الفقرات السابقة يبرز أهمية فك البس الدلالي كأحد أهم‎ 
تطبيقات معالحة اللغة الطبيعية واللسانيات الحاسوبية في مجال دراسة التحليل الدلاليء‎ 
والذي يُعنى بتحليل معنى الكلمات وتحديد المعنى الإجالي لكلات أو عبارات أو‎ 
جل في سياقها المعطى» بعبارة أخرى» إن بعض الكلمات يمكنها أن تحمل أكثر من‎ 
ويمكن من خلال توظيف السياق المحيط ہا تحديد معناها المقصود‎ » (senses), zx» 
فكلمة ”عين“ والتي تحمل‎ (Manning and Schütze, 1999) في السياق بدقة أكبر‎ 
تقدم الإشارة إلى ذلك يمكن أن نعرف معناها بدقة أكبر‎ CS (senses), أكثر من معنى‎ 

اعلا ااا کے ساق مد الین , 

إن الدراسات والأبحاث في مجال اللسانيات الحاسوبية والتى تطرقت JU‏ 
فك اللبس الدلالي استخدّمت فرضية مفادها أذ كل e‏ محدد من gll‏ 
(senses)‏ المختلفة» والتي يمكن تخزينها في قاموس يضم الكلمات ومعانيها أو أي 
OE‏ لغوي» بعد ذلك يُستخدم برنامج حاسوبي للبحث عن المعاني المختلفة لآي كلمة 
معطاة داخل مخازن الذخيرة لاستعادتهاء ثم يقوم بعملية اتخاذ القرار لتحديد أي معنى 
هو الأقرب للصواب في سياق الكلام المعطى» هذه البرامج الحاسوبية غالبا ما تعتمد 
على خوارزميات التعلم (Machine Learning Algorithms) JI‏ 

النمط البحثي السابق في فك اللبس الدلالي غالبا ما يستخدم لتحديد معاني الكلمات 
التي تحمل نفس الصفة النحوية (مثلا: كلاهما اسم أو كلاهما فعل)» لكن ماذا عن 
الحالات التي تختلف فيها الصفة النحوية للكلمة؟ مثلا ”هم“ و ”هم“ إذ إن الأولى 
ضمير منفصل والأخرى اسم» يعتبر وسم أجزاء الكلام Part of Speech Tagging)‏ 
POS‏ ) هو أحد أشكال فك اللبس الدلالي الذي يمكن استخدامه في مثل هذه 

ا لحالات» كما أشار إلى ذلك مانينق وشويتز )1999 "(Manning and Schütze,‏ 


-١‏ ينصح بالنظر هنا للفصل الثاني من كتاب مانينق وشويتز (1999 (Manning and Schutze,‏ والذي يتطرق لمزيد 
من التفصيل للتحليل الصرفي في مجال اللسانيات الحاسوبيةا وكذلك ينصح بالرجوع لكتاب حبش والخليفة QUY)‏ 
لمعرفة أدوات التحليل الصرفي المتاحة للغة العربية. 
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إن زيادة الدقة في تحديد المعنى الصحيح لكلمة ما في سياقها المعطى أمر بالغ الأهمية» 
خصوصا وأن هناك عددا من تطبيقات اللسانيات الحاسوبية يمكن أن تعتمد بشكل 
كبير على دقة نتائج فك اللبس الدلالي» على سبيل JEU‏ الترجمة الآلية Machine)‏ 
848 افعند ترجمة كلمة ”عین“ باعتبارها مدينة ستظهر "City of Ain" S‏ 
en S es‏ إلى "eye"‏ عند الإشارة إلى العين البشرية. 

و١‏ الموارد اللغوية اللازمة في أنظمة فك اللبس Resource ( JYI‏ 
(Requirement‏ 

التطرق إلى مسالة فك اللبس الدلالي قد يتفاوت بناءً على الموارد والذخيرة اللغوية 
المتاحة لبناء نظام حاسوبي يقوم بفك اللبس الدلالي تلقائياء حيث إن الخوارزميات 
المستخدمة غالبا ما تحتاج إلى مدونة لغوية متاحة يتم تغذية الخوازمية بها بهدف بناء 
وتدريب نموذج رياضي (Statistical model)‏ يكون بعد ذلك قادرا على القيام 
بتحديد معنى الكلمات في سياقها آلياء فهناك نهج بحثي يعتمد على وجود عينة تدريبية 
(Training examples)‏ غالبا ما تكون معدة يدويا «(Supervised disambiguation)‏ 
وهناك بحوث أخرى قد تعتمد على استخدام قواميس لغوية ضخمة Dictionary)‏ 
«(based disambiguation‏ ويتم تقييم أداء النموذج الرياضي والنظام الحاسوبي الذي 
يُبنى عليه باستخدام عينة اختبار (Testing examples)‏ تحتوي على عدد من الكلمات 
التي تم فك لبسها يدوياء على سبيل المثال كلمة ”عين“ في مثال ”العين هي من del‏ 
مدن دولة اللإمارات“ ستحمل التأشير التالي: 

[(الكلمة :Qword)‏ العينء الدلالة في السياق (sense label)‏ : مدينة العين]. 

Si g‏ عددٍ كبير من هذه الأمثلة (بالمئات أو بالآلاف) ضروري لبناء أنظمة حاسوبية 
مدربة على القيام بفك اللبس الدلالي آليا (Supervised systems)‏ بدقة عالية» ولكن 
تجدر الإشارة إلى أن توفير مثل هذه الموارد مكلف جدا من ناحية الوقت والجهد 
اللازمين (Knowledge sources)‏ وهذا L‏ أدى بالباحثين للنظر في طرق بديلة لبناء 
الأنظمة الآلية» وذلك إما باستخدام القواميس اللغوية الموجودة والتي تحتوي على عدد 
كبير من الكلمات ومعانيها في أكثر من سياق (انظر المثال في الشكل (Y‏ أو بتكوين عينة 
تدريبية ذات حجم بسيط نسبيا واستخدامها في بناء النظام مبدثياء ثم السماح له بالتعلم 
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تدريجيا بتعريضه لأمثلة خام / غير معدة (Unlabeled examples)‏ مع وجود مراقبة 


مستمرة من قبل مُطوري النظام للتعديل والتصحيح بشكل دائم» وهذه الطريقة ترف 


.(Semi-supervised learning) i5 PU بالمراقبة‎ 


معنى عين قي معجم المعاني الجامع - معجم عربي عربي 


الشكل Y‏ مثال يوضح نتائج البحث عن كلمة ”عين“ في معجم المعاني الجامع» المصدر موقع المعاني. 

Y, ٤‏ فك اللبس الدلالى فى اللغة العربية 

توج a ode‏ الا سات الى ارقت i alo coL DI elu‏ لفك الاس 
الدلالي في اللغة العربية» فقد استعرض الموجي وآخرون )2008 (Elmougy et al.,‏ 
مجموعة تجارب في هذا المجال توصلوا فيها إلى أن التجذير أو إرجاع الكلمات إلى 
جذورها ساهم بشكل كبير في رفع دقة البرنامج الآلي الذي طوره الباحثون لفك اللبس 
الدلالي في اللغة العربية» والذي اعتمد على واحدة من أبرز خوارزميات التعلم الآلي 
وهي LS « Naive Bayes‏ توصل الباحثون إلى أن استخدام هذه الطريقة ساهم بشكل 
فعال في تخفيف اللبس الناتج من عدم وجود التشكيل في معظم النصوص العربية» 
إذ يؤثر عدم وجود التشكيل في خلق مساحة كبيرة من اللبس والغموض في معاني 
الكلهات» كا أشرنا في مثال سابق في مسألة التفاوت في معنى ”هم“ و RAT‏ 


-١‏ لزيد من المعلومات حول خوارزميات التعلم JY‏ المستخدمة والفرق بينها في الأداء ينصح بالرجوع إلى الفصل 
السابع من كتاب مانينق وشويتز )1999 (Manning and Schutze,‏ 
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في دراسة حديثة» قدمت ناديا بوحريز وآخرون )2016 ie j£ (Bouhriz et al.,‏ 
من التجارب» وتوصلوا إلى أنه بالإضافة إلى oe VI‏ على السياق داخل الجملة / السياق 
(Local context) pal‏ لفك لبس معنى كلمة معينة ى) هى الحال في جل أبحاث 
ف الس الال يكو ell cya dolis elis‏ الما الساقة iioc JL‏ 
السياق العام (Global context)‏ محققا معدل دقة قدره 4 IN‏ عند تجربته على نصوص 
عربية مأخوذة من مصادر إخبارية. 

على الرغم من التقدم الذي أحرزته أبحاث اللبس الدلالي عند تطبيقها على اللغة 
العربية إلا أن مزيدا من الأبحاث المستقبلية والعمل على إنشاء المزيد من الذخيرة 
اللازمة لبناء وتدريب الأنظمة الآلية قد يكون له دور فعال في رفع مستوى دقة الأداء. 

ه. تحليل المشاعر (Sentiment Analysis)‏ 

أحد اتجاهات البحث الحديثة ضمن التحليل الدلالي هي التوجه لتحليل المشاعر 
وتوجهات «(Sentiment Analysis) TR‏ وهو جال dM‏ بدراسة وتحليل قطبية 
المشاعر في نص ماء بمعنى تحديد اتجاه المشاعر المعبر عنهاء بحيث تكون إما إيجابية أو 
سلبية أو محايدة» ويعرف ليو )2012 (Liu,‏ هذا العلم على أنه علم لتصنيف النص 
بحسب المشاعر التي يحتويها إلى إيجابي أو سلبي أو aute‏ آخذا بعين الاعتبار وجهة نظر 
كاتب النص وليس وجهة نظر قارئه (انظر الأمثلة في الجدول التالي): 


مثال قطبية المشاعر 
تنظيم رائع ومتميز في قمة دبي الحكومية هذا العام. اي 
تنحى الدكتاتور مبارك عن سدة الحكم. vi^‏ 
يوجد آيفون بين كل أربعة أجهزة ذكية. AT‏ 


جدول ١‏ : أمثلة لنصوص ذات قطبيات مختلفة» إيجابية وسلبية ومحايدة. 


ويفرق ليو (2012 (Liu,‏ بين تحديد اتجاه قطبية المشاعر المعبر عنه: فهى إما أن 
تكون من وجهة نظر كاتب النص أو من وجهة نظر قارئه» فمثلا قراءة خبر عن توسع 
المستوطنات الإسرائيلية في غزة غالبا ما سيكون خبرا سلبيا للقارئ الفلسطينى» وفي 
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نفس الوقت سيكون ule‏ بل ربا Lote]‏ لشخص de‏ الظرف الآخرء وعلية ارتآت 
معظم الأبحاث في تحليل المشاعر أن تعمل على تحديد قطبيتها من وجهة نظر كاتب 
النص (Author perspective)‏ ولیس من وجهة نظر قارئه (Reader perspective)‏ . 
إن التطبيقات العملية لتحليل المشاعر كأحد تفرعات معالجة اللغة الطبيعية 
واللسانيات الحاسوبية متعددة وذات تأثيرات لما أبعاد مختلفة» فمن وجهة نظر 
اللسانيات الحاسوبية ينظر إلى تحليل المشاعر بأنه أحد تطبيقات تصنيف النصوص 
(Text classification problem)‏ التى حققت تقدماً كبيراً عند تطبيقها على اللغة 
العربية (الفصحى المعاصرة -MSA‏ م (Modern Standard‏ ووصلت إلى 
معدلات is‏ عالية» فشانتر )2013 (Chanter,‏ مثلاً وصل إلى دقة تجاوزت 45/ 
عند تصنيف نصوص النشرات الإخبارية العربيةء إذ SA‏ فئة النص تلقائيا إلى: أخبار 
رياضية» اقتصادية» وهكذاء وقد استخدم الكاتب إحدى خوارزميات التعلم الآلي 
(Machine learning algorithm)‏ و التي قام بتطويرها من خلال أبحاثه لتكون أكثر 
دقة وسرعة» ولكن بالنسبة لتحليل المشاعر (كونه مسالة تصنيف نصوص كذلك كا 
سبق وأشرنا) أظهرت الأبحاث انخفاضا كبيرا في الأداء ليكون /17١-57٠‏ في اللغة 
الإنجليزية )2016 (Nakov et al.,‏ و ٦٥-٥۲‏ / في اللغة العربية( Abdul-Mageed‏ 
5 ,)» وجدير بالذكر هنا أن أبحاث تحليل المشاعر ابتعدت عن النصوص التقليدية 
(مثل النصوص الإخبارية) وتوجهت إلى منصات شبكات التواصل الاجتاعي (مثل 
وخر و فرك on y‏ عن مضتو فى ecd‏ ات ذات الد ااا eg‏ 
برزت شبكات التواصل الاجتماعي في السنوات الأخيرة لتكون حيزا يسمح لعدد هائل 
من المستخدمين يمثلون فئات عمرية مختلفة وخلفيات دينية وثقافية متعددة بالتعبير 
عن آرائهم وتوجهاتهم ومشاعرهم تجاه مواضيع وأشخاص أو حتى منتجات تجارية 
مختلفة» وهو ما جعل تحليل المشاعر - باستخدام تقنيات اللسانيات الحاسوبية وأدوات 
معالجة اللغة الطبيعية - للنصوص التي يتم ضخها بكميات كبيرة وبشكل يومي عبر 
شبكات التواصل الاجتماعي ذات أهمية بالغة في تطبيقات حياتية متعددة» منها: 
٠‏ تقييم مدى نجاح منتج أو خدمة تم إصدارها مؤخراء كتقييم شعور المستخدمين 
حول أحدث إصدار لأحد ال هواتف الذكية» وقد أشار ليو )2012 (Liu,‏ إلى أن 
الشركات العملاقة مثل قوقل وميكروسوفت لديا أنظمة حاسوبية لتحليل 


=\ = 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقيا 
أو تداولها تجاريا 


المشاعر تم تصميمها وبناؤها بشكل يخدم أهداف تلك الشركات. 
دید tea‏ شعبية ao]‏ المرشحن الاين أو الا اب السام |د olas o]‏ 
شبكات التواصل الاجتاعي تكون نشطة خلال فترات الانتخابات السياسية» 
وخر بالكل من الآراء (الويدة أو المعارقة) جاه السياسيين: P MP‏ 
السياسية إبان فترة الانتخابات )2008 .(Pang and Lee,‏ 
التنبؤ بأداء أسواق (OUT‏ حيث إن الأبحاث أثبتت ارتباطا بين أداء أسواق QUI‏ 
العالمية والأحداث التي تسجل حول العالم» والتي تؤثر في مشاعر الناس وتنعكس 
على ما يعبرون عنه في شبكات التواصل الإلكترونية )2011 -Johan et al.,‏ 
أبحاث أخرى استخدمت تحليل المشاعر في نصوص شبكات التواصل لتقييم 
a‏ العام وقياس سعادة الشعوب (Public mood / National happiness)‏ 
.(Johan et al., 2011)‏ 
كشف نزعات عنصرية أو آراء متطرفة» حيث قدم عباسي وآخرون Abbasi et)‏ 
(al., 2008‏ دراسة موسعة لاستخدام تحليل المشاعر في الكشف عن توجهات 
عنصرية في مواقع اجتاعية عربية وإنجليزية. 
cul ur 3,0‏ وتحديات تحليل المشاعر و شبكات التواصل الاجتماعي؟ 
تتميز نصوص شبكات التواصل الاجتاعي le SS‏ مصدرا غنيا للنصوص التي 
يمكن توظيفها في تطبيقات اللسانيات الحاسوبية وعلى Gul,‏ تحليل المشاعر» كونها 
تزود الباحثين بكمية كبيرة من النصوص التي يمكن جمعها بشكل مجاني» حيث إن جزءاً 
كبير من النصوص التي تُستخدم في أبحاث معالجة اللغة الطبيعية يتطلب الوصول 
إليها شراء حقوق الاستخدام هذه النصوصء وأبرز المزودين لهذه الخدمة هي جمعية 
البيانات اللغوية التى تديرها جامعة بنسلفانيا في الولايات المتحدة Linguistic Data)‏ 
(Consortium-LDC‏ وتضم مدونات لغوية كبيرة لعدد من اللغات ومنها اللغة 
العربية. 

كذلك تتميز شبكات التواصل بتأثيرها الواسعء إذ إن الآراء المطروحة خلاها تبلغ 
شريحة واسعة من المجتمع» وفي السنوات الأخيرة سببت الآراء التي يتم بثها عبر منصات 
التواصل الاجتماعي تأثيرات اجتماعية وسياسية ضخمة» منها على سبيل المثال الثورات 
call ce Vl a JE o eil‏ فى ode‏ سن الدول الغربية ello s ojo‏ 
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كانف با ا حلات تاسسيق عبر تويز وافسيوك لر عن AMI uelis eof‏ 51 تجاه 
الأنظمة السياسية في مجتمعاتهم )2016 (Buettner and Buettner,‏ . 

أبرز تحديات شبكات التواصل للنصوص العربية هي استخدام اللهجات المحلية 
(Local dialects)‏ أكثر من الفصحى (MSA)‏ حيث إن أدوات اللسانيات الحاسوبية 
التي تم تطويرها حتى وقت قريب تركز على الفصحىء والقليل جدا من الأبحاث 
تطرق إلى اللهجات المحلية» وقد بحثت الرفاعي )2016 (Refaee,‏ في إمكانية استخدام 
أدوات ومدونة لغوية تم تصميمها للفصحى واستخدامها على نصوص شبكات 
التواصل (والتي تمثل مزيجا من الفصحى والعاميات) وتوصلت إلى أن هناك جدوى 
من استخدام مثل تلك الأدوات على الرغم من انخفاض الأداء العام مقارنة بالتجارب 
على الفصحى فقط. من أمثلة هذه الأدوات: أدوات المعالحة المبدئية الآلية للنصوص 
(Pre-processing tools)‏ « وكذلك ادو ات التحليل الصرفي Morphological)‏ 
(analysers‏ . 

تحديات أخرى لتحليل المشاعر (وهي عامة وليست مقتصرة على اللغة العربية) 
تتمثل في استخدام اللغة غير المباشرة في التعبير عن المشاعر, فيمكن في اللغات الطبيعية 
التعبير عن مشاعر معينة (إيجابية أو سلبية) دون استخدام cos‏ مباشرة ذات JV»‏ 
عاطفية» ومثل هذه النصوص قد يكون من السهل تحديد قطبيتها العاطفية عند قراءتها 
من قبل البشرء ولكنها تمثل تحديا للأنظمة الحاسوبية المصممة لتحليل المشاعر بشكل 
تلقائي» حيث le]‏ تعتمد وبشكل كبير على الكلمات ذات الدلالة القطبية الواضحة 
والقوية مثل ”متاز“ للقطبية الإيجابية و ”بشع“ للقطبية السلبية» وتستخدمها كعناصر 
(Features)‏ أساسية في بناء أنظمة تحليل المشاعر (انظر المثال). 


- أصبحت مصر مثل الفيلم الأجنبي الغير مترجم» الكل يتفرج ويترجم على مزاجه. 
وسلبية في جملة واحدة)» فعند التصنيف اليدوي لمثل تلك الأمثلة يتم التعامل مع هذه 
الحالة بتغليب المشاعر الأقوى» ولكن بالنسبة للأنظمة الآلية لتحليل المشاعر تمثل 


النصوص ذات المشاعر المختلطة أكبر مصدر للخطأ الذي يتسبب في خفض دقة هذه 
الأنظمة )2014 (Abbasi et al.,‏ ومن النصوص ذات المشاعر المختلطة: 
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- لست مع الإخوان سياسياء ولكنني معهم إنسانيا. 

- السنة والشيعة كل طرف يحمل صورة نمطية عن الآخر فيها الكثير من الزيف 
das‏ 

- المساواة في قمع الحريات الشخصية عدل. 


az‏ آخر لتحليل المشاعر هو استخدام اللغة 4 «(Sarcasm/Irony) àJ‏ وهو 


استخدام الكلمة الإيجابية Le‏ بصورة هزلية: 
- جميل هذا الصمت من الدول العربية لما بحدث في غزة. 


تعليم الأنظمة الآلية إدراك بعض الأناط الهزلية يتطلبٌ تزويد تلك الأنظمة بعدد 
كبن من الأمثلة للتدريب عليها (Training examples)‏ وهو ما قد يصعب co pò S‏ 
خصوصا مع عدم توفر مدونة لغوية لخدمة هذا الغرض حتى OYI‏ ولكنها منطقة 
جديرة بالبحث مستقبلا. 

(Ontologies) الكينونات‎ . ٦ 

أحد المفاهيم التي تجدر الإشارة إليها عند الحديث عن التحليل الدلالي هي 
الكينونات COntologies)‏ وهي عبارة عن مجموعة من المفاهيم المجردة التي ترتبط 
ببعضها وتملك كل منها مجموعة من الخصائص؛ ويُعرّف قاموس أكسفورد الكينونات 
على أنها: 

مجموعة من المفاهيم والفئات في موضوع أو مجال ماء والتي تمتلك خصائص أو 
ملامح Li i‏ وتُعرّف العلاقات الداخلية التي تربط فيا بينها». 
"A set of concepts and categories in a subject area or domain that‏ 


shows their properties and the relations between them" © 


ومن أمثلة الكينونات شبكة الكلمات WordNet)‏ التى سبق الإشارة إليها (فقرة 
التحليل الدلالي في اللسانيات الحاسوبية)» ومن الكينونات الأخرى الشهيرة التي تتميز 


1- https://www.oxforddictionaries.com/ 
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بكونها متعددة اللغات شبكة بابل BabelNet‏ التى تشمل أكثر من ٠٠١‏ لغة ومنها 
اللغة العربية» والتي أنشأتها جامعة إسبانيزا في روما الإيطالية بطريقة آلية مع الاستعانة 
بشبكة WordNet‏ وعدد آخر من المصادر مثل موسوعة Wikipedia‏ وذلك باستخدام 
الترجمة الآلية بين اللغات (Statistical machine translation)‏ وتعد شبكة بابل من 
أكبر المصادر اللغوية متعددة اللغات المتوفرة على الإطلاق. 

تستخدم الكينونات في ide‏ مجالات يبرز من بينها الارتباط الدلالي للكلمات 
ومعانيها Semantic relatedness)‏ وفك اللبس الدلالي عن طريق إيراد كل gil‏ 
الممكنة لمصطلح أو كلمة معينة» حتى يتم توظيف خوارزميات اللسانيات الحاسوبية 
SEY‏ قرار في بخص اختيار أدق المعاني للكلمة في سياق معين. 


Translations 


® 

O scu AB. 8. BR. ss 

® book, Books, Book and paper conservation, Booke, T 
@ ivre, bouquin, Livres, Couverture 

(B Buch, Buch a 

Bio, cüyypayya. 1600 


7 390 , 770,399 350 


KHVra, kira, kHib«xa, Kuzu, K 


libro, Libros, Libra 


الشكل “: مثال يوضح مرادفات لكلمة um ud‏ مع ترحمتها لعدة لغات عبر شبكة بابل» المصدر 
BabelNet‏ 


-Y‏ جهود بارزة في التحليل الدلالي للغة العربية 

تجدر الإشارة إلى أبرز الجهود البحثية التى eads‏ ولاتزال فاعلة في جال التحليل 
الدلال وتطبيقاتة ja)‏ فك اللببن الدلاق وتخليل GAA‏ فا gba‏ ماك اال 
الطبيعية واللسانيات الحاسوبية» والتي تقدمها مجموعات بحثية هامة حول العالم أبرزها 
مجموعة the Stanford NLP group‏ البحثية في جامعة ستانفورد بقيادة البروفيسور 
كريستوفر مانينق )2008 (Manning et al.,‏ فهذه المجموعة البحثية تقدم جهودا 
متميزة لخدمة اللغة العربية نتج عنها حزمة من البرامج الفعالة والمدونات اللغوية المتميزة» 
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والتي قُدمت في جلها بشكل gle‏ لخدمة الباحثين في هذا المجال (انظر الصورة). 


The Stanford Natural Language Processing Group 


Arabic Natural Language Processing 


Overview 


me wo n 33 


إساء كل الطوائف المسبحية والاسلاسة | في الانطار] هم شارك 


and lami secs | and (for them,‏ ميت م فداه ممق 


nks to our freely available software along with 


ree parts of th ic Treebank (ATB) 
able. The parser 
Word Segm 
he segm 


f text 


d searching the ATB. Supports Unicode (UTF-8) input and display 


الشكل؛ : الموقع الرسمي لمجموعة ستانفورد البحثية والمخصص لأبحاث اللغة العربية. 
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جامعة الملك سعود CY VÉ Aid‏ صفحه .5١١-١99‏ 

http://www.almaany.com/ar/dict/ar-ar// : معجم ا معان الجامع‎ o 
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ا صلاح راشد "ex‏ 


يتناول هذا المبحث أهمية تحليل النصوص كتطبيق أساسي من تطبيقات المعالحة 
الحاسوبية للغة الطبيعية (Natural Language Processing)‏ وذلك من خلال 

سوبي بيعي من 
اكتشاف وانتزاع معرفة هامة من نصوص حرة لا تسير وفق بنية منظمة Unstructured)‏ 
(Data‏ حيث أفرز التطور الكبير في مجال البيانات الضخمة whas (Big Data)‏ هائلة 
من البيانات النصية ومنها على سبيل المثال لا الحصر مشاركات وحوارات وسائل 
التواصل الاجتاعي. يتطلب تحليل هذه البيانات إيجاد تطبيقات ومنصات تحليلية 
ولغات äs p‏ وأدوات برمجية وخوارزميات (Algorithms)‏ متخصصة للتعامل مع 
هذا الكم الهائل من البيانات النصية. وهنا تبرز أهمية تحليل النصوص كمجال بيني 


أستاذ مشارك في تخصص اللسانيات الحاسوبية والمعالجة الحاسوبية للغة الطبيعية بجامعة الكويت. حصل على شهادتي 
الماجستير والدكتوراه في اللسانيات الحاسوبية من جامعة أسيكس (Essex)‏ في إنجلترا. نشر عددا من الأبحاث وشارك في 
تأليف كتب حول اللسانيات الحاسوبية والمعالجة الحاسوبية للغة العربية. كا قام بالإشراف على عدد من رسائل الماجستير 
والدكتوراه في جامعة الكويت وخارج دولة الكويت. كذلك شارك في تحكيم عدد من الأبحاث ومناقشة أطروحات 
الماجستير في جامعة الكويت. عمل كمستشار في عدد من الجهات الحكومية منها الديوان الأميري» مجلس الأمةء الجهاز 
المركزي لتكنولوجيا المعلومات» ووزارة الإعلام. مهتم باللسانيات الحاسوبية» المعالجة الحاسوبية للغة الطبيعية» تحليل 
النصوصء. وتحليل البيانات الضخمة (salah.alnajem(g)ku.edu.kw) .(Big Data)‏ 
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(Interdisciplinary)‏ إذيدمج E‏ جال أكاديمى أهمها علم الحاسوبء اللسانيات 
الحاسو بية» استرجاع المعلومات «(Information Retrieval)‏ تحليل البيانات Data)‏ 
«(Minin‏ تعلّم الآلة «(Machine Learning)‏ والاحصاء (Statistics)‏ يدخل ؤ 
ME g g‏ يدخل في 
هذا المجال انتزاع المعلومات (Information Extraction)‏ من وثائق أو مواقع de‏ 
الشبكة العنكبوتية أو غيرهاء وتصنيف النصوص «(Text Classification)‏ وانتزاع 
أسماء الكيانات «(Named Entities)‏ وانتزاع العلاقات والأحداث» وتحليل المزاج 
العام (Sentiment Analysis)‏ . بعد التعريف بتحليل النصوص» يتحدث هذا المبحث 
عن أهمية البيانات الضخمة ومستويات ومراحل تحليل النصوص. ثم ينتقل إلى الحديث 
عن المعالجة الحاسوبية للنصوص وخطواتهاء ثم يتناول أخيرا تطبيقات تحليل النصوص 
مثل تصنيف النصوصء انتزاع المعلومات» وتحليل المزاج العام. 
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الفصل الخامس: تحليل النصوص 


.١‏ تعريف 
يعرف تحليل النصوص (Text Analysis /Text Mining)‏ بأنه اكتشاف وانتزاع 
معرفة هامة من نصوص حرة» أي نصوص لا تسير وفق بنية منتظمة Unstructured).‏ 
(Text‏ لتحقيق ذلك » pláni‏ أنواع عديدة من التمثيل المعرفي Knowledge)‏ 
0 للمعلومات اللغوية. نحصل على هذه المعلومات اللغوية عن 
طريق استخدام المعجم الإلكتروني (Lexicon)‏ الذي يحوي كلمات لغة معينة وسماتها 
الصرف - النحوية وقيمها الافتراضية من حيث المزاج العام Score Sentiment)‏ 
(Default‏ إضافة إلى استخدام القوانين النحوية والمعلومات الدلالية كالتصنيف 
الدلالي (Ontology /Taxonomy)‏ للكيانات والأحداث فضلا عن استخدام 

مکانز (Thesaurus)‏ المترادفات والاختصارات. 

يعد تحليل النصوص تطبيقا من تطبيقات ال معالحة الحاسوبية للغة الطبيعية Natural)‏ 
.(Language Processing‏ المعالحة الحاسوبية للغة الطبيعية هو فرع شارك ين 
علم الحاسوب (Computer Science)‏ واللسانيات الحاسوبية Computational)‏ 
95 تعتير المعالحة الحاسوبية للغة الطبيعية التطبيق العملى للجوانب 
افق ا eet LL s eo soli‏ اة ٠‏ 
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يمثل تحليل النصوص Ye‏ بينيا (Interdisciplinary)‏ حديثا يدمج اکر سن 
Jue‏ أكاديمي آهمها علم الحاسوبء اللسانيات الحاسوبية» استرجاع المعلومات 
«(Information Retrieval)‏ تحليل البيانات eie «(Data Mining)‏ الآلة Machine)‏ 
(Statistics) «La- I «(Learning‏ 

تُستخدم تقنيات تحليل النصوص في المجال التجاري والحكومي والأكاديمي وذلك 
o‏ أغلب المعلومات الرقمية المستخدمة عاليا غزنة على شكل نصوص لا تسير وفق 
بنية منظمة مقارنة مع البيانات التي تسير وفق بنية منظمة مثل البيانات الموجودة في 
قواعد البيانات (إيجناتو وميخاليكا .(Ignatow & Mihalcea «Y * YA‏ 

يدخل في هذا المجال انتزاع المعلومات (Information Extraction)‏ من وثائق أو 
مواقع على الشبكة العنكبوتية أو غيرها وتصنيف النصوص | (Text Classification)‏ 
وانتزاع «(il‏ الكيانات (Named Entities)‏ والعلاقات والأحداث وتحليل المزاج 
العام (Sentiment Analysis)‏ . 

تتضمن عملية تحليل النصوص استخدام عدد من العمليات أهمها انتزاع المعلومات 
(Information Extraction)‏ من مجموعة من النصوص وتطبيق مناهج إحصائية 
متقدمة واستخدام REGAL‏ الحاسوبية للغة الطبيعية من خلال التحليل الصرفي JYI‏ 
(Morphological Processing)‏ والوسم Part-of-Speech) (sU JM‏ 
8 والتحليل النحوي (Syntactic Parsing)‏ والتعرف على الكيانات 
(Entity Recognition)‏ و استخدام معلومات معجمية وتقنيات إحصائية لمعرفة 
الكيانات في النصوص مثل أسماء الأشخاص والأماكن والشركات وغيرها. كذلك 
تشتمل هذه العمليات على ما يعرف بإزالة الغموض (Disambiguation)‏ عن طريق 
استخدام معلومات سياقية لتحديد المعنى المقصود من الكلمة في حال وجود أكثر من 
معنى لها (ميخاليكا Mihalcea (Y * * V‏ ). كذلك تتضمن عملية تحليل النصوص 
تحليل المزاج العام (Sentiment Analysis)‏ للنص والذي يبدف إلى تحديد معلومات 
متعلقة بالموقف والرأي كتحديد أن كلمة أو عبارة معينة في النص تحمل مدلولا إيجابيا 
أو سلبيا أو عحايدا و تحديد العاطفة (emotion)‏ المرتبطة بالكلمة أو العبارة (سترابارافا 
و ميخايكا .(Strapparava & Mihalcea «Y * * A‏ 
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۲ . دور البيانات الضخمة 

تسبب التطور في مجال البيانات الضخمة (Big Data)‏ بإنتاج كميات هائلة من 
البيانات النصية. كذلك تسبب هذا التطور في إيجاد تطبيقات ومنصات تحليلية عديدة 
ولغات äs p‏ وأدوات iE y‏ وخوارزميات (Algotithms)‏ متخصصة للتعامل مع 
هذا الكم الحائل من البيانات النصية. تعرف البيانات الضخمة بأنها مجموعات البيانات 
المركبة كبيرة الحجم والتي لا يمكن معالجتها باستخدام الوسائل اليدوية أو باستخدام 
تطبيقات معالجحة البيانات التقليدية. من أمثلة البيانات الضخمة مشاركات وسائل 
التواصل الاجتماعى كالتغريدات ومشاركات المدونات (Blogs)‏ وسجلات الشبكة 
العنكبوتية (Web Logs)‏ وهي السجلات التي تنتجها أنظمة تحليل الشبكة العنكبوتية 
(Web Analytics)‏ وترصد فيها سلوك زوار مواقع الشبكة RAS,‏ استخدامهم 
للمحتوى المنشور على هذه الصفحات مثل نظام -Google Analytics‏ من أبرز 
التطبيقات التجارية المستخدمة في تحليل النصوص المشتقة من البيانات الضخمة 
نظام SAS Text Miner‏ (انظر شاكرابوري .(Chakraborty »5١ ١5‏ من لغات 
iel‏ المستخدمة في هذا المجال لغات Python‏ و R‏ ومن الأدوات البرمجية مكتبات 
البرمجيات NLTK‏ و GATE‏ و .NumPy s Pandas‏ 

كما تسبب التطور في البيانات الضخمة في توافر مصادر متنوعة من البيانات النصية 
التي استخدِمّت في أبحاث ومشاريع تحليل النصوص. من مصادر هذه البيانات المتعلقة 
بوسائل التواصل الاجتماعي أرشيف تويتر الرسمي CTwitte Gnip Firehose)‏ والذي 
a gi Leda cda ASI SUUS Us j| e‏ فيل elsi]‏ تطبيق نوين إلى الآن: 

هذا السياق رن ale led‏ جاري کي أن الاب العوري ف اتات 
الضخمة ليس حجم مجموعات البيانات (data sets)‏ ولكن الجانب الثوري هو 
ما يستطيع الباحثون عمله OYI‏ باستخدام هذه البيانات عن طريق الخوارزميات 
والأدوات البرمجية والتطبيقات المتخصصة في تحليل هذا النوع من البيانات» حيث أدى 
ذلك إلى الزيادة في استخدام التحليل الكمي في المجال الأكاديمي والعلمي والصناعي 
والحكومى (شاو £ * (Shaw «Y‏ 

Jie d‏ متصل» يشير نيتين هاردينيا (هاردينيا (Hardeniya «Y * Yo‏ إلى أن 
المهارات في مجال المعالجة الحاسوبية للغة الطبيعية تمثل إحدى أكثر المهارات 855 
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وهي مطلوبة بشكل كبير في Jle‏ صناعة تقنية المعلومات. فبعد التطور الكبير في 
Ju‏ البيانات الضخمة» صار التحدي الذي يواجه صناعة تقنية المعلومات هو 
إيجاد متخصصين يستطيعون التعامل ليس فقط مع البيانات التي تسير وفق بنية 
منظمة (Structured Data)‏ كالمعلومات الموجودة في قواعد البيانات بل علينا إيجاد 
المتخصصين الذين يستطيعون التعامل مع البيانات التي تسير Ub,‏ لبنية شبه منظمة 
(Semi-Structured)‏ أو غير منظمة .(Unstructured Data)‏ في هذا السياق» نحن 
ننتج بيتابايتات (Petabytes)‏ من البيانات على شكل تغريدات» مشاركات فيسبوك» 
مشاركات مدونات c (Blogs)‏ دردشات (Chats)‏ رسائل بريد إلكتروني» سجلات 
للشبكة العنكبوتية (Web Logs)‏ ومساهمات إبداء الرأي (Reviews)‏ حيث تقوم 
الشركات بجمع هذه الأنواع المختلفة من البيانات لكي تتمكن من استهداف الشرائح 
المناسبة بشكل أفضل ولكي تحصل على استنتاجات ذات معنى من تحليلها. ومن 
bs def‏ 5 ارا البيانات الى سين وفق ا غ منظمة» يقطلب الامو 
متخصصين في جال المعالحة الحاسوبية للغة الطبيعية (هاردينيا Hardeniya «Y ٠١0‏ 

من جهة أخرى انتبهت الحكومات إلى أهمية التعامل مع البيانات الضخمة» حيث 
أدركت أن الحوار الذي يدور على وسائل التواصل الاجتماعي يمثل وسيلة حية 
لاستطلاع رأي الجمهور ولمعرفة اتجاه الرأي العام أو اتجاه فئة معينة في المجتمع مثل 
الشباب. كا يمكن من خلال هذا الحوار معرفة ردود أفعال الجمهور تجاه القضايا 
السياسية والاجتاعية والاقتصادية. كذلك يعد الحوار الذي يدور على الشبكات 
الاجتماعية والأنشطة التي ترتبط بها من المؤشرات الأساسية لقياس الأداء Key)‏ 
(Performance Indicators‏ والتى يستخدمها متخذو القرار والجهات الحكومية 
للتأكد من تحقيق الأهداف الاستراتيجية لاستراتيجياتهم السياسية والاقتصادية 
والإعلامية. ومن أجل ذلك colas‏ الحكومات باستخدام أنظمة تحليل النصوص من 
خلال أنظمة تحليل وسائل التواصل الاجتماعي (Social Media Analytics)‏ التي 
سنتحدث عنها لاحقا. l i‏ 


هنالك ثلاثة مستويات أساسية لتطبيق تحليل النصوص تحدث عنها ريز Ruiz)‏ 
2009( وهى مستوى النص (Textual Level)‏ والمستوى السياقى Contextual)‏ 
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(Level‏ والمستوى الاجتماعي «(Sociological Level)‏ تعمل المناهج المختلفة 
a‏ صوص عل سحو ار ارين ده المتويات. 

في المستوى النصيء حل النصوص من حيث موضوعاتها (Topics)‏ ومن حيث 
الجوانب المتعلقة ببنية وتر كيب الخطاب (Discourse Composition and Structure)‏ 
كذلك من خلال المستوى النصى يمكن اكتشاف (Patterns) (pl‏ محددة في النص 
نفسه يمكن الاستفادة منها تحليليا. Ul‏ التحليل على المستوى السياقى» فإنه يمكن أن 
يؤدي إلى اكتشاف معلومات ذات علاقة بسياق الخطاب (Discourse Context)‏ أو 
السياق الاجتماعي (Register)‏ الذي أنتج النص أو استقبل فيه (كالسياق الاجتماعي 
الذي كتبت فيه مشاركة على وسائل التواصل الاجتماعي). من جهة أخرىء في المستوى 
الاجتماعي من مستويات تحليل النصوص يربّط النص الذي نقوم بتحليله بالمجال 
الاجتماعي الذي qe‏ و استقيل فيه بعد تحليله على المستويين النصي والسياقي. . في هذا 
المستوى يمكن أن JE‏ النص كانعكاس لأيديولوجية الكاتب والمستقيل كما يمكن أن 
Ji‏ النص كوسيلة لاستخلاص معلومات اجتماعية عن الكاتب أو المستقبل. 

.٤‏ مراحل تحليل النصوص 

٤‏ و ١‏ اختيار حالة الدراسة 

يتطلب تحليل النصوص اختيار حالة للدراسة (Case Selection)‏ تتمثل في مجموعة 
من البيانات والوثاتق المراد تحليلها واستخلاص النتائج والتعمييات منها. في هذا السياق» 
من أجل أن ينتج البحث نتائج أكثر شمولا حول ظاهرة معينة» يجب اختيار حالة ie‏ 
(Representative)‏ أي حالة تمثل نسبة كبيرة من مجموعة اجتاعية معينة أو أن يتم اختيار 
عينة عشوائية تمثل تلك المجموعة الاجتاعية. إلى جانب ذلك» Si‏ الباحثون في Jue‏ 
تحليل النصوص أن هنالك حالات تعرف بالحالات الخاصة. هذه الحالات هى حالات ها 
osea UIN aeo zl‏ ع cado s tar‏ عير EE‏ 
معينة. من أمثلة الحالات الخاصة التي استخْدِم تحليل النصوص لدراستها البحث الذي 
نشره كل من جيبسون 55 (Gibson and Zellner-Bruhn, 2001) 55 » jh‏ والذي 
قاما فيه بتحليل استخدام الموظفين في أربع دول للمجاز اللغوي .(Metaphor)‏ اختيرت 
الدول الأربع لأهميتها الاستراتيجية بحيث يمكن بعد استخلاص نتائج البحث حول 
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هذه الحالة الخاصة أن ean‏ نتائج البحث على مساحات جغرافية أكبر لمعرفة الاختلاف 
الثقافي واللغوي في الدول الواقعة في تلك المساحات الجغرافية. 

٤‏ ,۲ تحديد سؤال البحث أو المشروع 

بعد تحديد حالة الدراسة» يبدأ الباحث في مجال تحليل النصوص بتحديد سؤال 
البحث أو المشروع (على سبيل المثال: هل ترتبط ظاهرة التبديل اللغوي Language)‏ 
(Shift‏ في حوارات وسائل التواصل الاجتماعى بجنس معين دون الآخر أو بتقسييات 
ديموغرافية أخرى)؟ l‏ 

٤‏ و" اختيار وجمع الوثائق والعينات النصية 

بعد ذلك» يتم تحديد استراتيجية اختيار البيانات (Data Selection Strategy)‏ 
والتي يتم من AE‏ اختيار الوثائق أو مصادر البيانات التي ستجمّع عينة النصوص 
(Text Sample)‏ منها من أجل الإجابة عن سؤال البحث أو المشروع. من مصادر 
هذه البيانات نصوص مواقع معينة على الشبكة العنكبوتية. من هذه المصادر أيضا 
مشاركات وحوارات وسائل التواصل الاجتماعى كبيانات حوارات تويتر الحية أو 
التاريخية التى يوفرها أرشيف تويتر الرسمى (Twitter Gnip Firehose)‏ كما يمكن 
استخدام مسار کات فيسبوك التاريخية التي يوفرها أرشيف .Datasift‏ بعد تحديد 
استراتيجية اختيار البيانات» GU‏ مرحلة تحديد استراتيجية جمع عينة البيانات Data)‏ 
(Sampling Strategy‏ 

لعل القارئ يتساءل هناء BU‏ نحتاج لعينة البيانات؟ في كثير من الأحيان لا يستطيع 
الباحث جمع وتحليل كل البيانات النصية لمصدر معين. على سبيل المثال» يصعب على 
الباحث تحليل كل ما كتبته صحيفة معينة منذ إنشائها إلى الآن أو كل ما eS‏ من 
مشاركات حول موضوع معين على موقع من مواقع التواصل الاجتماعي منذ نشأته إلى 
الآن. في هذه الحالة يمكن استخدام استراتيجية لجمع عينة من البيانات. تجدر الإشارة 
هنا إلى أنه مع تطور تقنيات ومصادر البيانات الضخمة صار بالإمكان توفير مثل هذه 
coul‏ من الببانات بشكل SÍ‏ دقة وسهولة: غل سبل المثال» عن طريق أرشيف 
عينات تويتر (Twitter Gnip Decahose)‏ يمكن جمع عينة عشوائية تتكون من /.٠١‏ 
من تغريدات تويتر الحية حول موضوع معين. 
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به del‏ العينة بتكل معتل والقضوة يذلاك هر أن تكرت الح ا ااا 
للمجموعة البشرية العامة a coder d‏ تسمح العينة الممثلة لاحقا بتعميم نتائج 
البحث أو المشروع على مجموعة بشرية أكبر. في هذا السياق تعتبر العينة الاحتالية 
(Probability Sample)‏ العينة المثالية حيث يمكن عن طريق هذا النوع من العينات 
تعميم الاستنتاجات البحثية على مجموعة بشرية أكبر من خلال الاستدلالات 
الإحصائية. تجدر الإشارة هنا إلى أنه في جال أبحاث ومشاريع تحليل النصوص هنالك 
صعوبات تواجه الباحث عند محاولته الحصول على عينة احتالية تمثلة عند تحليل 
النصوص بشكل عام وعند تحليل النصوص المأخوذة من وسائل التواصل الاجتماعي 
بشكل خاص. تحدث كريبيندورف )2013 Krippendorf‏ عن هذه الصعوبات إلا 
أن المقام لا يتسع هنا للحديث عنها. لذلك لحأ الباحثون في Jle‏ تحليل النصوص 
إلى استخدام استراتيجيات أخرى لجمع عينات النصوص منها استراتيجية التعداد 
(Enumeration)‏ لوحدات النخصوص كتعداد مشاركات وحوارات مواقع التواصل 
الاجتماعي على مدى سبعة أيام متتالية ثم الجمع العشوائي للعينات Random)‏ 
8 من هذه المشاركات والحوارات. 

فمع تطور وزيادة حجم صفحات الشبكة العنكبوتية (The Web)‏ ومع تطور 
أدوات معالجة البيانات الضخمة» صارت صفحات الشبكات العنكبوتية مصدرا من 
أهم مصادر البيانات النصية في أبحاث ومشاريع تحليل النصوص. في هذا السياق» 
هنالك أسلوبان لجمع مجموعات الوثائق والبيانات النصية من الشبكة العنكبوتية وهما 
أسلوب الزحف (Web Crawling)‏ وأسلوب الكشط (Web Scrapping)‏ يطبق 
أسلوب الزحف من خلال تحديد صفحات الشبكة العنكبوتية التي يجب أن تضاف 
إلى مجموعة البيانات المراد تحليلها عن طريق الإبحار في روابط الشابكة المرتبطة بهذه 
الصفحة (Link Navigation)‏ يتم ذلك من خلال البدء بمجموعة أساسية من 
عناوين الشابكة (URLs)‏ والتنقل عبرها للوصول إلى الصفحات المرتبطة بها. LÍ‏ 
أسلوب الكشط فهو يتمثل في العملية التي pisá‏ لانتزاع Extraction)‏ النصوص 
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من مجموعة من صفحات الشبكة العنكبوتية والتي جعت عن طريق عملية الزحف 
(على سبيل المثال الصفحات المرتبطة بعنوان شابكة معين أو الصفحات التى تشكل 
l Borade‏ 

إلى جانب صفحات الشبكة العنكبوتية التقليدية» تحتوي الشبكة العنكبوتية أيضا على 
مصادر بيانات نصية أخرى أفرزها ما يعرف بالجيل الثاني من الشبكة العنكبوتية Web)‏ 
0 والذي يشتمل على مواقع تتكون من محتوى يساهم بنشره المستخدمون مثل موقع 
ويكيبيديا و مواقع وسائل التواصل الاجتماعي مثل تويتر وفيسبوك ومدونات الشبكة 
العنكبوتية (Web Blogs)‏ إضافة إلى ذلك» هنالك ما يعرف بالشبكة العنكبوتية 
العميقة (Deep Web)‏ والتي تشتمل على بيانات مخزنة في قواعد للبيانات لاتصل إليها 
محركات البحث التقليدية. 

plui‏ أنظمة حاسوبية خاصة لجمع المعلومات النصية من الشبكة العنكبوتية 
باستخدام أسلوبي الزحف والكشط. يمكن تطبيق أسلوب الزحف باستخدام برمجيات 
جاهزة مفتوحة المصدر (Open Source)‏ منها Nutch‏ و .Scraby‏ يمكن كذلك 
استخدام أحد oke y‏ (أوامر) نظام التشغيل لينيكس (Linux)‏ مثل wget‏ والذي 
يسمح بتطبيق أسلوب الزحف بشكل آلي على أي مجموعة من عناوين الشابكة. من جهة 
أخرى يمكن استخدام برمجيات جاهزة تستطيع التعرف على أنواع متعددة من المحتويات 
في مواقع الشبكة العنكبوتية وانتزاع وتخزين أنواع البيانات التي يحددها المستخدم. 
يمكن أيضا استخدام لغات ie p‏ مثل Python‏ لكتابة برامج تقوم بكشط البيانات (انظر 
ميتشيل (Mitchel (Y * Y‏ من أمثلة البرمجيات الجاهزة المستخدمة في كشط البيانات 
Helium Scraper‏ و Outwit‏ و .FMiner‏ يمكن كذلك استخدام ما يعرف بواجهة 
برمجة التطبيقات (APD‏ والتي تسمح بكشط البيانات من مواقع الشبكة العنكبوتية ومن 
وسائل التواصل الاجتماعي. يحتاج استخدام واجهات برمجة التطبيقات إلى توافر معرفة 
برمجية أساسية ولا يتطلب نفس المستوى من الخبرة البرمجية التي يتطلبها استخدام لغات 
à JI‏ مثل Python‏ لكتابة برامج كشط البيانات. من أمثلة واجهات برمجة التطبيقات 
المستخدمة لكشط النصوص من وسائل التواصل الاجتماعي واجهة igy‏ تطبيقات 
تويتر (Twitter API)‏ وأرشيف تويتر الر سمي (Twitter Gnip Firehose)‏ . 
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£ و £ الصيغة المنطقية الاستدلالية 

بعد الانتهاء من تحليل البيانات النصية التي nA‏ يقوم الباحث باستخدام 
صيغة معينة من الصيغ المنطقية للحصول على استدلالات حول العلاقات التي تربط 
الظواهر التي درست أو للحصول على استدلالات حول العلاقات التي تربط الظواهر 
المدروسة بالتعميات النظرية. في مجال تحليل النصوص يمكن استخدام ما يعرف 
بالمنطق الاستقرائي (Inductive Logic)‏ أو المنطق الاستنتاجي (Deductive Logic)‏ 
للاستدلال والوصول إلى نتائج البحث أو المشروع. 

ه. مصادر البيانات المعجمية الإلكترونية 

تمثل مصادر البيانات المعجمية الإلكترونية (Lexical Resources)‏ وسيلة 
إلكترونية لحفظ واسترجاع مجموعات كبيرة من البيانات المعجمية HAIS‏ والمركبات 
(Phrases)‏ مترافقة مع معلومات لغوية أخرى كالمعاني والعلاقات الدلالية. من أمثلة 
تلك المصادر الإلكترونية المعاجم الإلكترونية التي تشتمل على كلمات ومركبات 
مترافقة مع معاني تلك الكلمات والمركبات وطريقة استخدامها لغويا. من أمثلتها أيضا 
المكنز الإلكتروني (Thesaurus)‏ والذي يصنف الكلمات المترابطة دلاليا والمترادفات 
في مجموعة واحدة. كذلك نجد من أمثلتها تلك المصادر التي تقوم بربط الكلمات 
والعبارات بحقول دلالية أو بدلالاتها الافتراضية من حيث المزاج العام Default)‏ 
(Sentiment‏ أو العاطفة (سلبيء إيجابي» غايد). كذلك عن أمئلة تلك الضادر ما 
يعرف بقوائم الكلمات (Word Lists)‏ وهي سجلات تشتمل على الصيغ الصرفية 
(Morphological Word Forms)‏ الصحيحة الممكنة لكلات لغة أو هجة معينة. 

في هذا السياق تمثل مصادر البيانات المعجمية مكونا هاما في أغلب تطبيقات تحليل 
النصوص كالتطبيقات التي ee‏ بانتزاع المعلومات (Information Extraction)‏ من 
خلال انتزاع أهم الكلمات والعبارات المستخدمة في نصوص معينة» والتطبيقات التي 
ee‏ باكتشاف العلاقات بين الكلمات في النصوص. كذلك تُستخدّم في تطبيقات تحليل 
النصوص المتعلقة بتصنيف النصوص (Text Classification)‏ وتحليل المزاج العام 
(Sentiment Analysis)‏ من جهة أخرى يعتمد تصميم أنظمة التدقيق الإملائي 
(Spell Checkers)‏ للنصوص على قوائم الكلمات (Word Lists)‏ لتكوين المعجم 
الإلكتروني لتلك الأنظمة من أجل معرفة التهجئة الصحيحة للكلمات. 
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تجدر الإشارة إلى أن تصميم المصادر المعجمية يتطلب وقتا وجهدا كبيرا يمتد إلى 
سنوات. (S‏ يتطلب خبراء لغويين متخصصين في صناعة المعاجم .(Lexicography)‏ 
كذلك يتطلب الأمر في بعض المصادر الاستعانة بمتخصصين في علم النفس والمنطق. 
من أبرز أمثلة المصادر المعجمية المستخدمة Lile‏ قاعدة البيانات المعجمية WordNet‏ 
Na asd] ea ag‏ بذا کا جروج Ja‏ فى الحا d YAAG‏ جا 
برينستون الأمريكية. تحوي هذه القاعدة أغلب الأساء والأفعال والصفات والأحوال 
في اللغة الإنجليزية. 

يمثل هذا النظام قاعدة بيانات معجمية تحوي الكلمات ومعانيها ومرادفاتها وعلاقاتها 
المعجمية. هذه القاعدة مبنية على نظريات علم اللغة النفسي (Psycholinguistics)‏ 
المتعلقة بتمثيل المعرفة المعجمية في الذاكرة المعجمية (Lexical Memory)‏ الإنسانية. 
تحوي هذه القاعدة ما يعرف بمجموعات الترادف (Synsets)‏ كل مجموعة ترادف 
تحوي مجموعة من الكلمات المترادفة التى تمثل مفهوما معجميا (Lexical Concept)‏ 
أساسيا. تحتوي قاعدة بيانات WordNet‏ على ٥‏ ألف كلمة مصنفة إلى ۱١١‏ ألف 
مجموعة ثرادف cole jet ai,‏ الترادف ببعضها عن طريق علاقات دلالية, 

5. المعالحة الحاسوبية للنصوص 

بعد تحديد الوثائق والعينات النصية وجمع تلك الوثائق والعينات النصية من مصادر 
النصوص» gU‏ مرحلة المعالحة الحاسوبية للنصوص «(Text Processing)‏ قبل 
E‏ من Jl‏ تصن أن inse cc pai do pe‏ هذه اللخوص ها 
قابلة للتحليل واستخلاص النتائج. من أمثلة هذه المعالجات» إزالة وسوم (Tags)‏ 
لغة HTML‏ المستخدمة في وسم وترميز صفحات الشبكة العنكبوتية وذلك في حال 
استخدام نصوص تم الحصول عليها من مصادر تعتمد على الشبكة العنكبوتية وإزالة 
وسوم لغة XML‏ المستخدمة في تخزين الوثائق الإلكترونية. من عمليات المعالجة أيضاء 
تقسیم النص إلى الكلمات Tokenization)‏ إزالة علامات الترقيم الملتصقة بالكلات» 
olds cà‏ الإيقاف «(Stop Words)‏ تجريد الكلمات إلى Stemming / ) ke si>‏ 
623 إحصاء الكلمات « الوسم النحوي Part of Speech) ASU‏ 
8ه وربط الكلمات بمعانيها المعجمية. 
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(Tokenization) تقسيم النص إلى كلمات‎ ١5 

في هذه العملية يتعرف الحاسوب على الكلمات في النص باعتبار أن المسافات 
وعلامات الترقيم هي حدود فاصلة بين الكلمات. كما يقوم أيضا في هذه العملية 
بحذف أدوات الترقيم الملتصقة بالكلمات. على سبيل المثال» في تتابع الكلمات التالي 
”الطقس في هذا اليوم e I ee‏ يقوم الحاسوب بتقسيم هذا التتابع إلى الكلمات التالية: 
الطقسء cd‏ هذاء اليوم» جميل. نلاحظ هنا أن الحاسوب قام بتقطيع النص إلى كلمات 
منفصلة مع حذف علامة التعجب الملتصقة بالكلمة الأخيرة. تنتج هذه العملية من 
النص مجموعة من الكلمات (Tokens)‏ يمكن استخدامها في تحليل هذا النص أو تطبيق 
عمليات إحصائية عليه. كا يمكن أن تستخدم هذه المجموعة من الكلمات كمدخلات 
(Inputs)‏ لتطبيقات أخرى مثل تطبيقات التحليل الصرفي Morphological)‏ 
518 أو تحليل المزاج العام أو تصنيف النصوص. تجب الإشارة هنا إلى أنه في 
كثير من التطبيقات المرتبطة بمعالجة النصوص (مثل تطبيقات تحليل وسائل التواصل 
c ee YI‏ نحتاج إلى تنقية (Filtering)‏ مجموعة الكلمات المستخرجة من نص معين 
عن طريق حذف الكلات الوظيفية (Function Words)‏ كحروف الجر والضائر 
المنفصلة والظروف وغيرها من الكلمات الوظيفية التي ترد بشكل كبير في النصوص 
وتعرف في Jle‏ تحليل النصوص بكلءات الإيقاف (Stop Words)‏ . لذلك» PALA‏ 
قائمة من كلمات الإيقاف التي يرجع إليها الحاسوب من أجل تنقية مجموعة الكلمات 
التي استخلصها من نص معين. يقوم الحاسوب بتنقية مجموعة الكلمات المستخلصة عن 
طريق حذف الكلمات الموجودة في قائمة كلمات الإيقاف لتبقى في المجموعة الكلمات 
ذات المحتوى (Content Words).‏ وهي الكلمات ذات الأهمية في تحليل النصوص 
كالأساء والأفعال. 

5” استخلاص جذع الكلمة (Stemming/Lemmatization)‏ 

عملية استخلاص جذع الكلمة (Stemming)‏ هي عملية uale‏ فيها الجزء 
الأساسى من الكلمة المشتقة (Derived)‏ أو المصرفة (Inflected)‏ بعد حذف السوابق 
(Prefixes)‏ واللواحق (Suffixes)‏ من الكلمة. على سبيل الخال الكلمات: كاتبان» 
کاټبات» كاتباء الكاتبان» EU‏ لها جذع (Stem)‏ آساسي واحد وهو كاتب. يساعد 
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استخلاص جذع الكلمة في تحديد العلاقات بين الكلمات المترابطة صرفيا أو دلاليا مع 
اختلافها في البنية السطحية (Surface Structure)‏ . ينبغى أن نشير هنا إلى أن عملية 
استخلاص جذع الكلمة دوا A‏ الكلمة إل PIGET E‏ 
حروف الزيادة كا هو متعارف عليه في الدراسات الصرفية التقليدية. 

تجب الإشارة هنا أيضا إلى أن عملية استخلاص جذع الكلمة من خلال إزالة 
السوابق واللواحق قد لا تكون كافية لإرجاع بعض الكلمات إلى جذعها الأساسي» 
حيث إن إزالة السوابق واللواحق من كلمة مشتقة أو مصرفة قد نتج جذعا غير 
مستخدم لغويا (أي ليس موجودا في معجم اللغة) أو قد يرجع أكثر من كلمة مرتبطة 
دلاليا وصرفيا إلى أكثر من جذع مع أنها في الأصل تشترك في جذع أساسي واحد. على 
سبيل ا مثال» في اللغة الإنجليزية عندما ea‏ عملية استخلاص جذع الكلمة على كلمة 
مثل Lel having‏ ستنتج UJ‏ جذعا غير مستخدم لغويا وهو hav‏ وذلك من خلال إزالة 
اللاحقة [-108). كذلك في اللغة العربية» قد نجد أنفسنا أمام كلمات جعت جمع تكسير 
وهي كلمات لا نستطيع فقط الاعتماد على إزالة السوابق واللواحق منها لاستخلاص 
جذعها. على سبيل المثال» الكلمات: الطالب» طالبان» الطالبات» الطلاب كلها تعود 
إلى جذع واحد وهو طالب. نلاحظ هنا أننا في كلمة الطلاب (جمع تكسير) نستطيع أن 
نرجعها إلى جذعها المفرد المستخدم لغويا وهو طالب وهو نفس جذع الكلمات الأخرى 
المرتبطة مها دلاليا وصرفيا (الطالب» طالبان» الطالبات) دون ole VI‏ فقط على إزالة 
السواق SUL s‏ اق عبت إثنا لر اعدا ba‏ إؤالة السوابق واللواحق» dea‏ 
على جذعين مختلفين هذه الكلمات المترابطة دلاليا وصرفيا؛ حيث سنحصل على pM‏ 
طالب للكلمات الطالب» طالبان» الطالبات والجذع طلاب لكلمة الطلاب (بعد حذف 
السابقة [ال-]). 

لمواجهة ذلك» تُستخدّم عملية أخرى وهي عملية استخلاص الصيغة الصرفية 
الأساسية للكلمة .(Lemmatization)‏ الصيغة الصرفية الأساسية للكلمة (Lemma)‏ 
هي أصغر صيغة للكلمة مُستخدمة لغويا أي صيغة الكلمة دون وجود لسوابق أو 
لواحق تصريفية أو اشتقاقية أو Spa‏ متصلة بشرط أن تكون هذه الصيغة الصرفية 
مُستخدمة لغويا (موجودة في معجم اللغة). تقابل هذه الصيغة في اللغة العربية صيغة 
الماضي المفرد المذكر الغائب للأفعال وصيغة المفرد المذكر النكرة للأسماء. على سبيل 
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المثال: کتّب» استكتب» كاتب» مكتوب» كتاب» مَكتب Je‏ صيغا صرفية أساسية 


(Lemmas)‏ لكلمات مشتقة من جذر واحد (ك ت ب). 


5 إحصاءات النصوص 

بعد تقسيم النص إلى كلمات واستخلاص جذع الكلمة أو استخلاص الصيغة 
الصرفية الأساسية للكلمة» نحصل على مجموعة من الكلمات يمكن أن نطبق عليها 
عمليات Asa]‏ ثبين لنا أكثر الكليات استخداماً في نص معين. كذلك يمكن أن 
يُستخدّم التحليل الإحصائي لمعرفة متتابعات الكلمات الأكثر استخداماً (n-grams)‏ 
مثل أكثر كلمتين متتابعتين (Bi-Grams)‏ أو أكثر ثلاث كلمات متتابعة CTri-Grams)‏ أو 
أكثر أربع كلمات متتابعة (Quad-Grams)‏ استخداما. يمكن الاستفادة من إحصاءات 
ss‏ متابعات الكليات استخداماً في تحديد التراكيب الأكثر Ula‏ في نض معين. فى 
هذا الاق حل إحصاءات الكلمات وإحصاءات متتابعات الكلات من أهم عمليات 
تحليل النصوص المستخدمة في أنظمة تحليل وسائل التواصل الاجتماعي والأنظمة 
المستخدمة في التحليل الحاسوبي للمدونات اللغوية (Corpus Processing)‏ حيث 
تستخدم هذه العملية للتعرف على أكثر الموضوعات التي تحدث عنها نص معين إضافة 
إلى تحديد الكلات المفتاحية (Keywords)‏ والعبارات المفتاحية (Key Phrases)‏ 
المستخدمة في النص. 

(Part of Speech Tagging) (SA وسم الفئة النحوية‎ £1 

هي العملية التي يقوم خلاها الحاسوب بمسح نص معين ووسم (Tagging)‏ كل 
كلمة فيه بالفئة النحوية (Syntactic Category)‏ التي تنتمي إليها (اسم» فعل» حال» 
صفة ...) بناء على معنى هذه الكلمة في المعجم وبناء على السياق الذي تأتي فيه هذه 
الكلمة (علاقتها مع الكلمات أو العبارات الأخرى التي تأت معها في السياق). على 
سبيل المثال» يستطيع الحاسوب وسم CoU‏ هذه الجملة JST‏ الولد التفاحة“ كالتالي: 


أكل ال الولد ال تفاحة 


Noun Determiner Noun Determiner Verb 
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تجدر الإشارة هنا إلى أن هنالك اختلافاً في الوسوم المستخدمة في أنظمة وسم الفئة 
هو الحال في الوسوم المستخدمة في مدونة Penn Treebank‏ « وهي عبارة عن مدونة 
نصية خضعت للتحليل النحوي o y‏ الفئات والعلاقات والأبنية النحوية لجملها. 
حيث استخدمت في هذه المدونة وسوم مركبة مثل NN:‏ والتي تدل على اسم عام مفردء 
و N8‏ Nوتدل‏ على اسم عام جمع» و NNP‏ وتدل على اسم علم مفرد» ; NNPS‏ وتدل 
ع اسم عتم ت 

تعتمد أنظمة وسم الفئة النحوية COSI‏ غالبا على ما يعرف بالتعلم الإشرافي 
(Supervised Learning)‏ والذي يعتمد على المعرفة التى يستخلصها الحاسوب من 
نصوص حددت فتاتها النحوية سابقا لتعلم كيفية وسم الفئة النحوية لكلمات نصوص 
أخرى آليا. 

pises‏ عملية وسم الفئات النحوية للكلمات في معالجة النصوص لتحديد 
التراكيب النحوية الأكثر استخداما في نص معين بشكل دقيق من خلال التعرف على 
أنماط استخدام التركيب GLAY‏ وغيره من التراكيب النحوية. كذلك يستخدم وسم 
الفئات النحوية في التحليل النحوي JYI‏ للنصوص (Syntactic Parsing)‏ والذي 
كوه ليد العلاقات النحوية بين الوحدات النحوية (Syntactic Constituents)‏ 
للجمل في النصوص وّثيل البنية النحوية لتلك الجمل كتحديد المركبات الاسمية 
(Noun Phrases)‏ التي تتكون من أداة تحديد يتلوها اسم أو المر كبات الفعلية Verb)‏ 
6 التي تتكون من فعل يتلوه مركب اسمي. لزيادة دقة التحليل النحوي «QI c‏ 
تستخدم أنظمة التحليل النحوي التعلم الإشرافي من خلال تدريب النظام على نصوص 
(Ja E s‏ يناري ple Penn Trecbank ài jJ (jo s‏ كني del‏ 
جمل نصوص أخرى بشكل آلي بناء على المعرفة المستخلصة من النصوص المحللة يدويا. 

(Named Entity Tagging) الكيانات‎ eli وسم‎ ٥و‎ 5 

في هذه العملية يتعرف الحاسوب على أسماء الكيانات (Named Entities)‏ مثل 
أسماء الأشخاص والمواقع والبلدان والشركات سواء كانت كلمات مفردة أو تعبيرات 
مركبة من أكثر من كلمة. تدخل هذه العملية في إطار ما يعرف بعملية انتزاع المعلومات 


. (Information Extraction) 
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5 و٠‏ النماذج اللغوية 

النماذج اللغوية (Language Models)‏ هي ناذج احتالية (Probabilistic)‏ 
تستخدم نظرية الاحتالية (Probability Theory)‏ للتعامل مع اللغة الطبيعية بحيث 
يمكن استخدامها is‏ احتمالية استخدام تتابع معين من الكلمات أو الحروف في 
نصوص لغة معينة. كذلك تستخدم هذه à cte)‏ تحديد مدى احتالية (Likelihood)‏ 
ترافق (Collocation)‏ كلمتين في نصوص لغة معينة (على سبيل المثال ترافق كلمتى 
”التنمية“ و ”الاقتصادية). 

لبناء الناذج اللغوية تُستَخدّم المدونات اللغوية التي تتميز بحجم نصوصها الكبير. 
تُستخدّم هذه المدونات اللغوية كمدونات تدريبية (Training Corpora)‏ لتدريب 
الحاسوب من أجل بناء النموذج اللغوي» وذلك من خلال حساب احتماليات تتابع 
كلمات أو حروف معينة في ie gat‏ من النصوص . تزداد دقة النموذج اللغوي US‏ زاد 
نئن o pal cle pet‏ الى ى qni pl ule‏ غل سل الال كيدها تب 
احتمالية الترافق لكلمتي ”التنمية“ و ”الاقتصادية“ بناء على نص مأخوذ من كتاب 
واحد OB‏ دقة احتمالية الترافق ستكون أقل بكثير من دقة الاحتالية المستنتجة من مدونة 
مكونة من نصوص صحف إلكترونية على مدى حمس سنوات. 

تُستخدّم النماذج اللغوية في عدد من تطبيقات المعالجة الحاسوبية للغة الطبيعية» ومنها 
أنظمة التدقيق الإملائى والتعرف JYI‏ عل الكلام المنطوق (Speech Recognition)‏ 
والترحمة الآلية (Machine Translation)‏ . تُستخدّم cte)‏ اللغوية أيضا في تحليل 
النصوص لتحديد التراكيب الأكثر استخداماً في نص معين أو لزيادة دقة تحديد المزاج 
العام لنص معين من خلال توقع ترافق كلمات معينة مع كلمات أخرى في النص بحيث 
يؤدي هذا الترافق إلى إعطاء الجملة مزاجا إيجابيا مثلا أو يؤدي ذلك الترافق إلى عكس 
مزاج الافتراضي للجملة من سلبي إلى إيجابي. 

اول برمجيات المعالحة الحاسوبية للنصوص 

لتطبيق المعالحة الحاسوبية للنصوص يمكن استخدام برمجيات جاهزة ومكتبات 
RES‏ مفتوحة المصدر. من أبرز هذه البرمجيات أداة CoreNLP Toolkit‏ وهى 


حزمة برمجية مكتوبة بلغة جافا طُوّرّت في جامعة ستانفورد الأمريكية وتوفر أدوات 


ات 
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لتحليل النصوص .(ttp://stanfordnlp.github.io/CoreNLP)‏ كذلك يمكن 
استخدام (GATE General Architecture for Text Engineering)slsl‏ التي 
طُوّرت في جامعة شيفيلد البريطانية وهي أيضاً حزمة برمجية مكتوبة بلغة جافا وتوفر 
أدوات لمعالجة النصوص (انظر ريز (Reese «Y Ir‏ . كذلك يمكن استخدام أداة 
(LingPipe http://alias-i.com/lingpipe)‏ وهى حزمة LE‏ مكتوبة بلغة جافا 
تون آذرات الما اة ل اطي يشكل عاد وما القصوص كل 
خاص (انظر بالدوين وآخرون (Baldwin ۰۲۰۱٤‏ . يمكن أيضا استخدام مكتبة 
l‏ يات( (NLTK Natural Language Toolkit‏ وهى عبارة عن مكتبة برمجيات 
مصدمة pluie‏ عن طريق gali T ie s Python i3‏ معا التصوض 
(http://www.nltk.org)‏ (انظر بيرد وآخرون 4 * * et. al cY‏ 8150.) . 


۷. تطبيقات تحليل النصوص 

(Text Classification) تصنيف النصو ص‎ Y, V 

تطبيقات تصنيف النصوص هي تطبيقات يقوم الحاسوب من خلاها بإعطاء نص 
معي تصشيفاً أو أكثر من جموعة من التصتيفات المحددة مسيقا. في هذا السياق يمكن 
عن طريق هذه العملية تصنيف الوثائق وفقا للموضوع» اللغة» الكاتب» أو غير ذلك 
من التصنيفات. 

في البداية» كانت أنظمة تصنيف النصوص تعتمد على استخدام قوانين مركبة 
يستخدمها نظام التصنيف لتحديد تصنيف وثيقة أو نص معين بناء على تواجد كلمات 
معينة في هذا النص. على سبيل المثال» يمكن استخدام القانون التالي: إذا وجدّت كلمة 
nx‏ و ”مَدرّسة“ و ”اختبار“ في نص واحد OB‏ هذا يعني أنه يمكن تصنيف هذا 
النص في المجال التعليمي أو التربوي. إلا أن أنظمة التصنيف المبنية على القوانين 
(Rule-Based)‏ واجهتها صعوبة بناء وصيانة قوانين التصنيف وهى صعوبات تزداد 
aa jo‏ حسم col ill iab dios E iue pai‏ الطلرية ارف 
وهو ما يعرف بالقابلية للتوسع (Scalability)‏ بناء على ذلك co; be‏ أنظمة لتصنيف 
النصوص تستخدم تقنية تعلم الآلة (Machine Learning)‏ تعتمد هذه الأنظمة على 
التعلم الإشرافي؛ بحيث pÉ‏ نصوص مصنفة سابقاً كبيانات لتدريب نظام التصنيف 
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عليهاء وبذلك يتعلم الحاسوب -على سبيل المثال- أن كلمتي Free‏ و Gift‏ غالبا ما 
تترافقان في محتوى نصوص ما يعرف برسائل البريد الإلكتروني الإقحامية (Spam)‏ 
بعكس کلمتی Research‏ و Abstract‏ اللتين تترافقان غالبا في حتوی نصوص رسائل 
غير إقحامية. تحتاج هذه الأنظمة إلى توافر نصوص مصنفة مسبقا للتعلم منهاء وبالتالي 
متى ما استطاع نظام التصنيف تعلم التصنيف من تلك النصوص المصنفة مسبقا فإنه 
سيستطيع تطبيق ما تعلمه لتصنيف أي نصوص آخرى» وبالتالي يكون النظام WE‏ 
للتوسع (Scalable)‏ بشكل أفضل. 

من أمثلة تطبيقات تصنيف النصوص أنظمة التعرف على رسائل البريد Qa ASTE‏ 
الإقحامية .(Spam E-Mail Detection)‏ في هذه الأنظمة يقوم الحاسوب بشكل Ji‏ 
بتصنيف كل رسالة بريد إلكتروني مُستَلَمّة إلى مجموعة الرسائل الإقحامية (Spam)‏ أو 
مجموعة الرسائل غير الإقحامية. تعمل هذه الأنظمة على مستوى الحاسوب الخادم لنظام 
البريد الإلكتروني (E-Mail Server)‏ أو على مستوى التطبيق الذي يستخدم لإرسال 
واستقبال وإدارة رسائل البريد الإلكتروني (E-Mail Client Application)‏ >¿ 
يقوم التطبيق بفحص رسائل البريد الإلكتروني الواردة إلى صندوق بريد المستخدم ليقرر 
تصنيفها إلى رسالة إقحامية لتصل إلى Ale‏ الرسائل الإقحامية (Spam/Junk Folder)‏ 
أو تصنيفها إلى رسالة غير إقحامية لتصل إلى Ale‏ صندوق البريد الوارد (:1850). 

كذلك من أمثلة تطبيقات تصنيف النصوص التطبيقات الخاصة بتصنيف 
(Topic Classification) ole s sl‏ وهي DR rhe‏ فيها الوثائق إلى موضوعات 
مثل الاقتصاد» السياسة» والطب. تُستخدّم هذه العملية عادة لتصنيف صفحات 
الشبكة العنكبوتية. حيث استخدِمّت هذه العملية في مشروع الدليل Open) c gll‏ 
(Directory Project‏ لصفحات الشبكة العنكبوتية (http://www.dmoz.org)‏ 
cre (e UL,‏ من e ad‏ من صفحات الشبكة العتكبوتية إلى cob‏ شجرية بناء 

من جهة أخرىء تَستَخدّم تطبيقات تصنيف النصوص في نوع آخر من الأنظمة التي 
تقوم بالتعرف على أسلوب الكاتب .CAuthor Profiling)‏ في هذا النوع من الأنظمة 
والاتجاه السیاسی (كوبيل و 9 05 ۲ (Koppel et. al Y‏ .في هذا السياق» يستخدم 


—3£0o- 


هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقيا 
أو تداولها تجاريا 


الحاسوب -على سبيل -JE‏ معلومات متعلقة بإحصاءات استخدام أنواع معينة من 
الكلمات في النص كالكلءات الوظيفية (Function Words)‏ للتعرف على أسلوب 
الكاتب أو جنسه. 

(Information Extraction) اع المعلومات‎ y3 ۷ 

في هذه العملية يقوم الحاسوب باستخلاص معلومات ذات بنية منظمة Structured)‏ 
‘yo (Data‏ مجموعة بيانات لا تسير وفق بنية منظمة (Unstructured Data)‏ (إيجناتو 
وميخاليكا .(Ignatow & Mihalcea «Y * Y‏ 3( هذه alius JH‏ أنواع محددة 
uas‏ سن المانات eal Ls‏ الاشخاضن أو البلدان أو الشركات أن الحا Qo‏ 
مجموعة من النصوص. كذلك يمكن استخلاص أحداث (Events)‏ معينة كارتفاع 
أسعار أسهم شر كة معينة أو عملة معينة. كا يمكن استخلاص العلاقات (Relations)‏ 
مثل علاقة ”رئيس شركة“. لتوضيح d Sall‏ يمكن لأنظمة انتزاع المعلومات أن تعالج 
النص التالي ”سيقوم تيم كوك الرئيس التنفيذي لشركة أبل بإطلاق الإصدار الجديد 
لجهاز آي فون في مؤتمر أبل الذي سيعقد في سان فرانسيسكو في السابع من الشهر 
الجاري“. من هذا النص يمكن لنظام انتزاع المعلومات أن يستخلص أساء كيانات 
(Entity Names)‏ وتتمثل في اسم شخص | (Person Name)‏ وهو تیم كوك واسم 
منظمة/ شركة (Organization Name)‏ وهو «Jl‏ وحدث (Event)‏ وهو Fi‏ 
أبل» ووقت وهو السابع من الشهر الجاري. كذلك يمكن للنظام أن يستخلص من 
هذا النص علاقة وهي علاقة ”الرئيس التنفيذي“ بين تيم كوك و شركة أبل. هنا نجد 
أن معلومات اسم الشخصء اسم المنظمة/ الشركة» الحدثء الوقت» والعلاقة التي 
استخلصها الحاسوب هي بيانات ذات بنية منظمة استخلصّت من نص يمثل بيانات لا 
تسير وفق بنية منظمة. 

يمكن الاستفادة من عملية انتزاع المعلومات في تطبيقات كثيرة؛ حيث توفر هذه 
ikhal‏ إمكانية الحصول على بيانات وتنظيمها لتحليلها ومعالحتها لاحقا Post)‏ 
cu (Processing‏ يمكن على سبيل JAI‏ استخدام عملية انتزاع المعلومات 
للحصول على بيانات حول منتجات معينة أو شركات معينة أو أسعار أسهم معينة أو 
علاقات معينة كرؤساء شركات أو أساتذة جامعات. يمكن أن تد ل هذه البيانات إلى 
حقول قاعدة بيانات للاستفادة منها لاحقا ولربطها مع بيانات أخرى. 
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في هذا السياق» هنالك عمليتان أساسيتان يقوم عليهها عمل أنظمة انتزاع 
المعلومات وهما انتزاع الكيانات (Entity Extraction)‏ انتزاع العلاقات Relations)‏ 
(Extraction‏ . 

71 و١‏ انتزاع الكيانات 

من أجل تحقيق الاستفادة من أنظمة انتزاع المعلومات يجب أن يستطيع الحاسوب 
التعرف على أسماء الكيانات (Named Entities)‏ المذكورة في نص معين. يدخل في هذا 
المجال التعرف على أسماء الأشخاصء. أساء البلدان» أسماء الشر كات» أساء المنتجات» 
وأسماء الأحداث. كذلك يجب أن يستطيع الحاسوب التعرف على الكيانات التي ÉÉ‏ 
تحت مجموعات دلالية معينة مثل الحيوانات والأطعمة. 

لتحقيق انتزاع الكيانات» بستخدم عادة معجم يحوي أساء كيانات مثل أسماء شر كات 
وأسماء أشخاص بحيث يرجع الحاسوب إلى هذا المعجم للتعرف على sul‏ الكيانات 
الموجودة في نص معين. في هذا السياق» يمكن على سبيل المثال أن يحوي هذا المعجم 
أسماء | Apple 5 Sony s Samsung s Boeing‏ و IBM‏ كأساء لشركات. كذلك 
يمكن استخدام مجموعة من النصوص التي وَسمّت يدويا بأسماء كيانات Tagged)‏ 
(Named Entities‏ ليستخلص الحاسوب منها معج) يحوي أسماء الكيانات في هذه 
المجموعة من النصوص . باستخدام هذا المعجم الذي o‏ من تلك النصوص ال موسومة» 
يمكن للحاسوب التعرف UT‏ على أسماء الكيانات في نصوص أخرى غير موسومة 
Texts)‏ 4 كذلك يستطيع الحاسوب - بناءً على هذا المعجم - استنتاج 
وتَعلّم قوانين تحدد له إذا ما كان أمام اسم OLS‏ على سبيل المثال» يستطيع الحاسوب 
استنتاج أن كلمتي ”شركة“ أو ”مؤسسة“ تأتيان في سياق الاستخدام اللغوي قبل اسم 
كيان لشركة أو مؤسسة. كذلك يمكن أن يستنتج أنه إذا وجد نمطا Pattern)‏ مثل ”آنا 
موظف في“ فإنه غالبا ما يكون الاسم الذي يأتي بعد النمط اسم كيان يدل على شركة 
أو مؤسسة أو منظمة يعمل فيها موظفون. على سبيل ا مثال» عندما يجد الحاسوب جملة 
مثل ”آنا موظف في رویترز“ فإنه سيضيف اسم ”رویترز“ إلى معجمه كاسم كيان يدل 
على منظمة/ شركة. من خلال هذه القوانين والأناط» يستطيع الحاسوب التعرف على 
المزيد من أسماء الكيانات وإضافتها إلى معجم أس)ء الكيانات لديه. وبهذا يزداد حجم 
المعجم ويستخدم مرة أخرى بالترافق مع القوانين للتعرف على أسماء كيانات جديدة في 
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نصوص جديدة؛ US s‏ تعرف الحاسوب على أسماء كيانات جديدة» يقوم بإضافة أسماء 
الكيانات الجديدة تلك إلى معجم أسماء الكيانات بشكل تكراري .(Recursively)‏ 
cis‏ هذه العملية في Jle‏ انتزاع plell‏ مات بعملية (Bootstrapping)‏ وهي عملية 
تقوم على استخدام قائمة بأسماء الكيانات وقائمة بالأناط أو القوانين ele‏ المزيد من 
أسماء الكيانات من نصوص بشكل تصاعدي. استخدِمّت هذه الطريقة Laf‏ للتعرف 
على أسماء كيانات لفئات دلالية (ريلوف وجون 1444« .(Riloff & Jone‏ 

9۷ انتزاع العلاقات 

كثيرا ما نحتاج إلى معرفة العلاقة التي تربط بين شخصين أو شخص ومنظمة 
معينة أو غير ذلك من العلاقات. على سبيل المثال» عندما نقول إن الشخص س هو 
أخ الشخص ص فإن هنالك علاقة تربط بين الشخص س والشخص ص وهي علاقة 
أخوة. وعندما نقول إن الشخص س يعمل في الشركة ص فإن هنالك علاقة تربط 
و الکن س وا ا ص وض عا عل تف ME EN‏ ارت 
من معرفة العلاقات بين الكيانات de‏ انتزاع العلاقات (Relations mé‏ 
وهي أحد مجالات انتزاع المعلومات. 

قبل التعرف على العلاقات التي تربط كيانات معينة يجب أولا التعرف على تلك 
الكيانات ثم بعد ذلك الانتقال إلى تحديد العلاقات التي تربطها. إلا أن عملية التعرف 
على العلاقات التي تربط الكيانات تعتبر أكثر صعوبة من عملية التعرف على الكيانات. 

كا رأينا في عملية التعرف على الكيانات» لتمكين الحاسوب من التعرف على 
العلاقات pisis‏ عادة مجموعة من النصوص الموسومة يدويا بعلاقات تربط الكيانات 
الموجودة فيها. بعد ذلك تستخدم تقنية تعلم الآلة لتمكين الحاسوب من التدرب والتعلم 
على تحديد هذه العلاقات في نصوص أخرى. يتطلب تحديد العلاقات أيضا استخدام 
سمات تميز الكيانات التي تشترك في علاقة معينة كسمة الجنس المستخدمة في علاقة أخ 
أو أخت. كذلك تُستخدّم TIN‏ متعلقة بالدور الدلالي (Thematic Role)‏ 
للكيانات أو الدور النحوي لما (من خلال استخدام التحليل النحوي (Parsing)‏ 
وأشجار التحليل .(Parse Trees)‏ باستخدام كل هذه السمات والبيانات» يستطيع 
الحاسوب تحديد العلاقات التي تربط بين الكيانات في النصوص. 
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۷ استر جاع المعلومات (Information Retrieval)‏ 

في هذه العملية يقوم الحاسوب بمعالحة استفسار (Query)‏ لطلب بيانات موجودة 
في وثائق أو صفحات على الشبكة العنكبوتية أو على أنظمة إدارة الوثائق Document)‏ 
(Management Systems‏ ثم التعرف على الوثائق أو الصفحات التي تحوي المعلومات 
المطلوبة في الاستفسار واسترجاعها. يعتمد الحاسوب في تحديد الوثائق أو الصفحات 
المطلوبة على مستوى التشابه بين الاستفسار ومحتوي النص الموجود في الوثائق أو 
الصفحات التى يبحث فيها لتحديد ما إذا كانت هذه الوثائق أو الصفحات هى المطلوبة 
l Laid‏ 

ليتمكن الحاسوب من إنجاز ذلك. eue‏ أولا نصوص الوثائق والصفحات معالجحة 
أولية (CPre-Processing)‏ تشتمل هذه المعالحة الأولية على تطبيق عملية تقسيم النص 
إلى كلمات (Tokenization)‏ واستبعاد كلمات الإيقاف (Stop Words)‏ واستخلااص 
pm‏ الكلمة (Stemming/Lemmatization)‏ )ار جع dl‏ القسم السادس من هذا 
المبحث). بعد ذلك يقوم الحاسوب بفهرسة Indexing)‏ البيانات النصية ال موجودة في 
الوثائق أو الصفحات المراد البحث فيها. خلال عملية الفهرسة LO SS‏ الحاسوب فهرسا 
وهو is‏ بيانات (Data Structure)‏ تقوم بإجراء عملية ربط (Mapping)‏ بين الكلمات 
من dne‏ وال ا ر المشحات da ual]‏ من هة رى نعف عد الهو xt‏ 
أو الصفحات التي توجد فيها كل كلمة في ذلك الفهرس. يجب أن تُبنى بنية الفهرس 
بشكل يُمَكٌن الحاسوب من الوصول بشكل سريع SU JI]‏ أو الصفحات التي تحوي 
كل كلمة في ذلك الفهرس. بعد ذلك يستقبل الحاسوب استفسارات من المستخدم 
يقوم على ضوئها بالبحث عن المعلومات المطلوبة بالرجوع إلى الفهرس واسترجاع 
الوثائق أو الصفحات المتعلقة بالاستفسارات. في هذا السياق» عندما يقوم المستخدم 
بإدخال استفسار إلى نظام استرجاع المعلومات» OB‏ النظام يرجع إلى الفهرس للبحث 
عن SASI‏ المفتاحية (Keywords)‏ الموجودة في الاستفسار ويسترجع الصفحات أو 
الوثائق التي تحوي هذه الكلمات المفتاحية بناء على ما وجده في الفهرس. عندما يسترجع 
النظام الوثائق أو الصفحات ذات العلاقة بالاستفسار» فإنه يعرض للمستخدم نتائج 
البحث مرتبة وفقا لدرجة ارتباط هذه الوثائق بكلمات الاستفسار (Relevance)‏ بحيث 
تكون الوثائق الأقرب لكلمات الاستفسار أعلى في الترتيب (Ranking)‏ من الوثائق 
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الأقل ارتباطا. (gl‏ هذه العمليات من خلال واجهة استخدام (User Interface)‏ 
تقوم باستقبال الاستفسار الذي يدخله المستخدم ثم استرجاع الوثائق أو الصفحات 
cols‏ الصلة بالاستفسان» وثرتيبها وفقا لدرجة الارتباط بذلك الاستفسار, كذلك 
يمكن أن تقوم هذه الواجهة بتحسين دقة الاستفسار الذي يدخله المستخدم عن طريق 
التدقيق الإملائي للاستفسار و التصحيح الأ( (Automatic Correction)‏ للكليات 
ala‏ من خلال عرض النتائج المقابلة للصيغة الصحيحة لغويا للكلمة التي أدخلها 
المستخدم بشكل خاطئ إلى النظام. على سبيل المثال» عندما يقوم المستخدم بإدخال 
الاستفسار الخاطئ UI‏ “إظراب العال“ OB‏ واجهة الاستخدام لنظام استرجاع 
المعلومات تقوم آليا بتصحيح الاستفسار وتحويله إلى الصيغة الصحيحة UUJ‏ 
”إضراب الال“ واسترجاع الوثائق والصفحات المرتبطة مهذه الصيغة الصحيحة. 
كذلك يُمكِن من خلال واجهة الاستخدام عرض نتائج التحليل المرادفة للاستفسار 
(Synonyms)‏ باستخدام مكنز مرادفات (Thesaurus) Ji‏ . كذلك يمكن من خلال 
هذه الواجهة إكمال الاستفسار المدخل بالكلمات التي عادة ما تترافق مع الجزء الذي 
أدخله المستخدم مثل إكمال الاستفسار المكون من كلمة ”الصحة“ بكلمة ”النفسية“ 
ليصبح الاستفسار ”الصحة النفسية“. 

TIN‏ أنظمة استرجاع ا معلومات في عدد من المجالات أهمها محركات البحث 
(Search Engines)‏ على الشبكة العنكبوتية وتطبيقات البحث في أنظمة إدارة الوثائق. 
حيث تُستخدّم أنظمة استرجاع المعلومات عادة للبحث في نصوص لا تسير وفق 
بنية منظمة» مثل صفحات الشبكة العنكبوتية والمحتوى النصى الكامل (Full Text)‏ 
لوثائق مخزنة في أنظمة إدارة الوثائق. إلا أن هذه الأنظمة d e Lal pis‏ 
بيانات تخضع لبنية منظمة كالبيانات المخزنة في قواعد البيانات» كقواعد بيانات الصور 
والأفلام وسجلات أوراق الأبحاث العلمية. 

لتحديد ما إذا كانت وثيقة أو صفحة معينة ها علاقة بالاستفسار الذي أدخله 
المستخدم» يقوم الحاسوب بالبحث عن مكونات الاستفسار لمحاولة العثور على ما 
يقابله في الوثائق أو الصفحات التي يبحث فيها. نشير هنا إلى أنه في كثير من DYH‏ 
لا يمكن أن تتطابق كل مكونات الاستفسار مع الوثائق أو الصفحات التي يبحث 
الحاسوب فيها. لذلك تلجأ أنظمة استرجاع المعلومات إلى البحث عن الكلمات 
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الموجودة في الاستفسار بشكل حر دون التزام بالترتيب الذي eS‏ به هذه الكلمات 
في الاستفسار وهو ما يعرف بأسلوب حقيبة الكلمات «(Bag-of-Words)‏ على 
سبيل المثال» عندما يكون الاستفسار مكوناً من التتابع التالي من الكلمات ”اللسانيات 
الحاسوبية اللغة العربية“ فإن الحاسوب يستطيع أن يسترجع أي وثائق أو صفحات 
تحمل هذه الكلمات دون الالتزام بترتيبها الذي es‏ به في الاستفسار. في هذه الحالة 
سيسترجع الحاسوب وثائق أو صفحات تحوي التتابع التالي ”اللغة العربية في ضوء 
دراسات اللسانيات الحاسوبية“ أو ”أبحاث اللسانيات الحاسوبية في Jle‏ معالجة اللغة 
العربية“. في هذا السياق» تستخدم أنظمة استرجاع المعلومات ناذج معيارية للبحث 
عن معلومات الاستفسار أهمها نموذج بوليان (Boolean Model)‏ و ونموذج فيكتور 
سبيس (Vector Space)‏ والنموذج الاحتالي .(Probabilistic Model)‏ سنتحدث 
هنا باختصار عن هذه النهاذج حيث إن المقام في هذا المبحث لا يتسع للحديث عنها 
بالتفصيل. 

نموذج بوليان هو نموذج مبني على المنطق الرمزي (Symbolic Logic)‏ حيث 
يَبحث الحاسوب باستخدام هذا النموذج عن الكلمات المفتاحية المستخدمة في 
الاستفسار الذي يدخله المستخدم من خلال دمج الكلمات المفتاحية مع أدوات البحث 
المنطقية (Logical Search Operators)‏ مثل OR (4) AND‏ (أو)., و NOT‏ (ليس) 
للوصول إلى نتائج البحث. على سبيل المثال» عندما يقوم المستخدم بإدخال الاستفسار 
التالي ”العربية AND‏ اللسانيات“ فإن الحاسوب سيبحث عن الوثائق أو الصفحات التي 
تحوي كلتا الكلمتين المفتاحيتين ”العربية“ و ”اللسانيات“؛ أما عندما يدخل eli‏ 
الاستفسار التالي ”العربية OR‏ اللسانيات“ فإن الحاسوب سيبحث عن الوثائق أو 
الصفحات التي تحوي إحدى الكلمتين ”العربية“ أو ”اللسانيات“. إلى جانب نموذج 
OU y‏ يُستخدّم نموذج فيكتور سبيس وهو نموج يعتمد على حساب مدى التشابه 
بين حقيبة الكلمات Sd (Bag-of- Words)‏ لاستفسار المستخدم ونصوص الوثائق 
أو الصفحات التي يبحث فيها الحاسوب. كما يستخدّم أيضا النموذج die VI‏ الذي 
يعتمد على تحديد مدى احتمالية مطابقة وثيقة أو صفحة معينة للاستفسار الذي أدخله 
المستخدم باستخدام تطبيقات نظرية الاحتالية (Probability Theory)‏ بدلا من 
الاعتاد فقط على الكلمات المفتاحية Ead‏ في الاستفسار. 
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(Sentiment Analysis) اج العام‎ AM تحليل‎ ۷ 

Sentiment) أنظمة تحليل المزاج العام‎ Gal تحليل النصوص‎ E Q^ 
لقيت هذه‎ (Opinion Mining) أيضا بأنظمة تحليل الر أي‎ 1355, (Analysis 
الأنظمة اهتماما واسعا في السنوات الأخيرة مع تطور وزيادة استخدام أنظمة تحليل‎ 
والتى تشتمل على تحليل‎ (Social Media Analytics) وسائل التواصل الاجتماعى‎ 
في‎ -Wang, H. et. al) (Y * YY المزاج العام كأحد مكوناتها (انظر وانج وآخرون‎ 
هذه الأنظمة يقوم الحاسوب بتصنيف نص معين من حيث مزاج المحتوى إلى إيجابي‎ 
أو سلبي أو محايد. في هذا السياق» توفر أنظمة تحليل المزاج العام للجهات الحكومية‎ 
وسيلة لقياس تفاعل الجمهور وردود أفعالهم تجاه الأحداث والقضايا السياسية‎ 
والاجتاعية والاقتصادية وغيرها. كذلك يمكن استخدام تحليل البيانات التاريخية‎ 
لوسائل التواصل الاجتماعي لمعرفة التغير التاريخي في اتجاه المزاج العام تجاه قضية معينة‎ 
كات أنظمة تحليل‎ y كذلك تستخدم‎ .(Trend Analysis and Benchmarking) 
المزاج العام لمعرفة آراء الزبائن في منتجاتهم و خدماتهم من خلال تحليل مزاج مشاركات‎ 
1 وحوارات وسائل التواصل الاجتاعي التي تتناول منتجاتهم.‎ 

إلى جانب استخدامه في تحليل وسائل التواصل الاجتماعيء eui‏ تحليل المزاج 
العام في تطبيقات أخرى لتحليل لنصوص حيث استخدِم في تحليل المزاج العام للأخبار 
(انظر لويد وآخرون et. al. (Lloyd, L «Y 0 o‏ و تحليل رأي مستخدمي مواقع تقييم 
المنتتجات (Product Reviews)‏ (انظر هو وآخرون £+ Cet. al. Hu, M Y+‏ 

Y, £, V‏ مصادر البيانات المعجمية لتحليل المزاج العام 

من أجل تحديد المزاج العام للنصوصء نحتاج إلى المرور بأكثر من مرحلة من 
مراحل تحليل النصوص. في المرحلة الأولى يبتى معجم إلكتروني (Lexicon)‏ يحوي 
مجموعة كبيرة من الكلمات والعبارات التي S47.‏ المزاج العام الافتراضي Default)‏ 
(Sentiment Polarity‏ المقابل ها بشكل يدوي (على سبيل المثال» كلمة أرائع” تحمل 
المزاج "إيجابي” es‏ كلمة ”سيء“ تحمل المزاج ”سلبي“). يُستخدم الحاسوب هذا 
من مصادر النصوص. تجدر الإشارة إلى أنه في بعض السياقات قد لا تكون قيمة المزاج 
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العام الافتراضية لكلمة واحدة في الجملة كافية لتحديد المزاج العام لكل الجملة. على 
سبيل المغال» الجملة التالية ”آنا لا أحب التفاح“ تعتبر سلبية من حيث ال مزاج على الرغم 
في بعض الأحيان تحتاج أنظمة تحليل المزاج العام إلى تحليل سياق الجملة لمعرفة المزاج 
العام U‏ دون الاعتماد فقط على المزاج العام لكلمة من كلماتها. من جهة «u$ ol‏ قد 


السخرية أو قد يقصد توجيه إسقاطات أو انتقادات ذات طبيعة سياسية مثلا بشكل غير 
مباشر. في هذه ا حالة تصبح الجملة سلبية من حيث المزاج العام على الرغم من أن المزاج 
العام الظاهر oid‏ الجملة إيجابي. بناء على ذلك» ومن أجل زيادة دقة نتائج التحليل QI‏ 
للمزاج العام» gos‏ التحليل الحاسوبي الآلي للمزاج العام مع المراجعة البشرية. حيث 
بحلل المزاج العام أولاً بشكل آلي باستخدام نظام تحليل المزاج العام. بعد ذلك PAL‏ 
المراجعة البشرية لنتائج التحليل لتنقيحها. تجدر الإشارة إلى أن هذه المراجعة البشرية 
تساعد في الحصول على نتائج أكثر دقة لتحليل المزاج العام» حيث إن المراجعة البشرية 
لا تنظر فقط إلى المعنى الظاهر للكلمات والعبارات بل تستخدم المعرفة البشرية المتعلقة 
بجوانب الدلالة والسياق والأبعاد ذات العلاقة بالسياسة» الاقتصاد. التقاليد وغيرها 
من الجوانب التي تؤثر في الحكم على المزاج العام لجملة معينة. 

من أمثلة المعاجم الإلكترونية المستخدمة في تحليل المزاج العام المعجم المرافق 
لنظام OpinionFinder‏ (انظر ويبي وآخرون .(Wiebe, et. alcY* *o‏ حيث 
طورت مجموعة من الباحثين من جامعات بيتسبيرج و كورنيل ويوتاه الأمريكية نظام 
COpinionFinder http://mpqa.cs.pitt.edu/opinionfinde)‏ والذي يقوم بمعالحة 
الوثاتق النصية والتعرف الآلي على جوانب الرأي الشخصى في جمل هذه الوثائق وتحديد 
المزاج العام LU‏ المعجم الإلكتروني المرافق لنظام OpinionFinder‏ باستخدام كلمات 
جعت وحُدَّدَ مزاجها العام يدوياء إضافة إلى استخدام كلمات استخرجّت من مدونات 
لغوية وسم المزاح العام لكلماتها مسبقا. يحتوي المعجم على 5857 مادة معجمية منها 
٠‏ مادة مكونة من تعبيرات مركبة .(Multiword Expressions)‏ إضافة إلى تحديد 
المزاج العام «uale‏ سلبيء محايد) لكل مادة معجمية في المعجم, oS‏ الفئة النحوية 
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OpinionFinder هذه المواد المعجمية. تجدر الإشارة إلى أن نظام‎ (Part of Speech) 
وهي كما أشرنا سابقا عبارة عن‎ Penn Treebank استخدم لوسم جزء من جمل مدونة‎ 
بايا‎ d csl d oS eo adobe s y lunas Ue uad ada 

كذلك من أمثلة المعاجم الإلكترونية المستخدمة في تحليل المزاج العام معجم 
SentiWordNet‏ و المستخدم في تحليل الر (Opinion Mining) T‏ (انظر إيسولي 
وآخرون .(Esuli, A. et. 21..5٠١5‏ بْنِيَ هذا المعجم اعتتمادا على قاعدة البيانات 
المعجمية WordNet‏ حيث يعطي هذا المعجم لكل مجموعة ترادف (Synset)‏ في قاعدة 
بيانات WordNet‏ قيمة تبين المزاج العام هذه المجموعة (إيجابي» سلبي» Gul‏ لتكوين 
معجم SentiWordNet‏ تم البدء بوسم عدد من مجموعات الترادف يدويا بقيمة المزاج 
العام المقابل ها. بعد ذلك cas‏ مجموعات الترادف الأخرى بشكل آلي ليغطي معجم 
17010111 الآن كل مجموعات الترادف في قاعدة WordNet‏ المعجمية» حيث 
وصل عدد كلمات المعجم إلى ٠٠١‏ ألف كلمة. 

من جهة أخرى استخدم الباحثون مدونات لغوية مكونة مجموعات من نصوص 
cras‏ كلماتها بالمزاج العام المقابل ها. من خلال تَعَلم الحاسوب من الكلمات الموسومة 
وسياقاتها في نصوص تلك المدونات اللغوية» يقوم الحاسوب آليا بتحديد المزاج العام 
لنصوص آخري أو تكوين معاجم إلكترونية eje‏ في تحليل المزاح العام (يعرف 
ذلك باستخدام التعلم الإشرافي لتحديد المزاج العام). 

من أمثلة المدونات اللغوية الموسومة مسبقا بقِيّم المزاج العام لكلماتها مدونة 
Multiperspective Question Answering‏ وهى عبارة عن مدونة لغوية 32 t:‏ 
e oo‏ إا باللعة ال جت من solae‏ إا cala Ae gto‏ 
يدويا بمعلومات حول المزاج العام والعواطف التي تعبر عنها عباراتها (انظر ويبي 
وآخرون .(Wiebe, et. 8125٠٠١0‏ 

من جهة أخرى» LS‏ مدونات لغوية متخصصة في جال آراء مشاهدي الأفلام 
(Movie Review)‏ واستخدمّت في تدريب الحاسوب على تحليل المزاج العام في 
نصوص أخرى في جال آراء المشاهدين في الأفلام وني مجالات أخرى. في هذا السياق» 
قام كل من بانج ولي (انظر بانج وآخرون 05 .ا (Pang, B.‏ بتصميم مدونة 
مكونة من مجموعتي نصوص: الأولى تحوي ألف مقالة لآراء المشاهدين وتحمل مزاجا 
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ve tes 


وآخرون (انظر ماس وآخرون 3 (Maas, A. L. et. alcY*‏ بتكوين مدونة أكبر 
متخصصة في جال آراء مشاهدي الأفلام تحتوي على ٠١‏ آلف مقالة لآراء المشاهدين 
x‏ من موقع IMDb‏ متخصص في الأفلام. 

تجدر الإشارة إلى أن الباحثين في مجال تحليل المزاج العام وتحليل الرأي بدأوا بالاهتمام 
بالمواقع التي تحوي مقالات ومشاركات تعبر عن آراء المستخدمين في منتجات معينة 
(Products Review)‏ مثل مو قع 7 و c. epinions.com‏ استخدم 
المحتوى النصي لهذه المواقع لتكوين مدونات لتحليل المزاج العام يمكن استخدامها لبناء 
معاجم إلكترونية لتحليل المزاج العام» فضلا عن استخدامها في Jle‏ تعلم الحاسوب 
للتحليل السياقي للمزاج العام لنصوص أخرى. 

v, ۷‏ أنظمة تحليل المزاج العام 

يمكن تقسيم أنظمة تحليل المزاج العام إلى فئتين» الفئة الأولى هي الأنظمة المبنية 
على القوانين (Rule-based)‏ وهي أنظمة تعتمد في عملها على معاجم إلكترونية 
نيت بشكل يدوي أو آلي. النوع الثاني من هذه الأنظمة يتمثل في الأنظمة التي تعتمد 
على تقنية ei‏ الآلة (Machine Learning)‏ وهى أنظمة تقوم بتحليل المزاج العام 
للنصوص من خلال المعرفة التي OSIE‏ الحاسوب عليها عن طريق المدونات الموسومة 
بمعلومات المزاج العام. من أمثلة أنظمة النوع الأول التي تعتمد على القوانين نظام 
OpinionFinder‏ السابق ذكره. حيث يقوم هذا النظام بالتعرف JYI‏ على المزاج العام 
olds‏ وعبارات النصوص التي uU‏ وفقا لوجود أو عدم وجود تلك الكلمات 
والعبارات في معجمه الإلكتروني. من أمثلة النوع الثاني الذي يعتمد في تحليله للمزاج 
العام على تقنية تعلم الآلة نظام تحليل المزاج العام للوثائق الذي طوره كل من بانج ولي 
(بانج وآخرون 5 (Pang, B. et. 21.07٠١‏ لعل ما يميز الأنظمة التي تعتمد على التعلم 
الآلي عن طريق مدونات لغوية موسومة مسبقا بمعلومات المزاج العام أن هذه الأنظمة 
يمكن استخدامها لتحليل المزاج العام لأي لغة متى ما توافرت نصوص المدونات 
اللغوية الموسومة بمعلومات المزاج العام التي يتعلم منها الحاسوب. كذلك ظهرت 
فئة حديثة من أنظمة تحليل المزاج العام وهي الأنظمة المعتمدة على التعلم JYI‏ العميق 
(Deep Learning)‏ والذي يتمثل في استخدام التعلّم اللي من خلال ما يُعَرّف ببنوك 
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أشجار تحليل المزاج العام ( (Sentiment Treebanks‏ حيث تستخدم هذه الأنظمة 
معلومات المزاج العام للكلمات والعبارات بالترافق مع أشجار التحليل النحوي 
(Parse Trees)‏ لتحليل abi‏ العام للجمل في النصوص بشكل تركيبي (انظر سوشر 
وآخرون .(Socher, R. et. 21.67١ \Y‏ يساعد ذلك في التعامل مع الجمل المركبة التي 
لا تسير وفقا مزاح واحد بل تحوي تغيرا في المزاج مثل جملة ' تصميم المنزل رائع ولكن 
نوافذه قبيحة“. حيث نلاحظ أن هذه الجملة المركبة بدأت بمزاج إيجابي (تصميم المنزل 
رائع) إلا أن المزاج تحول في النصف الثاني من الجملة إلى مزاج سلبي (ولكن نوافذه 
قبيحة). لمعرفة المزيد حول استخدام التعلم الآلي العميق في محال تحليل المزاج العام» 
يمكن للقارئ زيارة هذه الصفحة من موقع جامعة ستانفورد الأمريكية http://nlp.‏ 
.stanford.edu/sentiment‏ 

athi A 

من خلال اكتشاف وانتزاع معرفة هامة من نصوص حرة لا تسير وفق بنية منظمة» 
يظهر دور تحليل النصوص كتطبيق هام من تطبيقات المعالحة الحاسوبية للغة الطبيعية. 
يتحقق ذلك من خلال التفاعل بين أكثر من مجال بيني أهمها علم الحاسوبء اللسانيات 
الحاسوبية» استرجاع المعلومات» تحليل البيانات» تعلم الآلة» والإحصاء. يسير استخدام 
تحليل النصوص جنبا إلى جنب مع التطور الكبير في Jie‏ البيانات الضخمة والذي 
تسبب بإنتاج كميات هائلة من البيانات النصية» وإيجاد تطبيقات ومنصات تحليلية 
عديدة» ولغات ie y‏ وأدوات برمجية وخوارزميات متخصصة للتعامل مع هذا الكم 
الهائل من البيانات النصية. من خلال تطبيقات تحليل النصوص يمكن الاستفادة من 
تلك البيانات للوصول إلى نتائج علمية ومؤشرات ذات أهمية وفائدة للباحثين ومتخذي 
القرار في الجهات الحكومية والتجارية. كل ذلك يبين أهمية اللسانيات الحاسوبية في 
عصر المعلومات كتخصص علمي له أبعاد علمية وتطبيقية في شتى مجالات الحياة. 
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التدقيق الإملائى 


د. وليد بن عبدالله الصانع ٠‏ 


ملخص البحث 

يعتبر الحاسب الآلي ONT‏ هو الأداة الرئيسية التي يستخدمها المؤلفون في الكتابة. 
ونظرا LAY‏ الكتابة السليمة لإيصال الفكرة» OP‏ المدقق الإملائي يعتبر عنصرا مها 
في برمجيات التحرير الكتابي على أجهزة الحاسب الآلي. وقد دأبت كبرى شركات التقنية 
منذ ظهور الحاسب الآلي على تطوير مدققات إملائية تساعد المؤلفين على اكتشاف 
وتصحيح الأخطاء الإملائية. وتعتبر اللغة العربية الآن من اللغات المدعومة في كثير 
من أنظمة التشغيل وأجهزة الحاسب JII‏ والبرمجيات. وقد قامت كبريات الشركات 
العالمية بتطوير مدققات إملائية للغة العربية. ونظرا OM‏ اللغة العربية مستخدمة في بقاع 
كثيرة» وهي تعتبر من اللغات القديمة والتي ما JD‏ كثير من عباراتها المستخدمة قدي 
دارجة الاستخدام في المؤلفات الحديثة» فإن تطوير مدققات إملائية لها يعتبر تحديا لا 


١‏ -يعمل الدكتور وليد بن عبدالله الصانع أستاذ بحث مساعد بالمركز الوطني لتقنية الحاسب والرياضيات التطبيقية بمدينة 
الملك عبدالعزيز للعلوم والتقنية. حصل على درجتي البكالوريوس والماجستير في علوم الحاسب JYI‏ من جامعة الملك 
سعود. قرأ الدكتوراه في مجموعة الذكاء الاصطناعي بجامعة يورك ببريطانيا. عمل سابقا مهندسا للبرمجيات في قسم 
الأبحاث والتطوير في شركة الإلكترونيات المتقدمة ومهندسا للنظم والبرمجيات في شركة الاتصالات السعودية. تتمثل 
اهتاماته البحثية في تعليم الآلة وتحديدا في البرامج المنطقية» الرسوم الاحتمالية» البرامج المنطقية الاحتالية وتطبيقات هذه 
النظريات في نمذجة ومعالجة اللغة والأدوات (walsanie@kacst.edu.sa). irasal‏ 
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بأس به بسبب اختلاف صيغ الإملاء عبر الزمن وبين البقاع. وني هذا الفصل أقوم أولا 
باستعراض أبرز التحديات التي تواجه مطوري المدققات الإملائية للغة العربية. ومن 
ثم أعرج على طرق اكتشاف الأخطاء الإملائية وإشكالياتها. ومن ثم أستعرض أبرز 
الطرق لتصحيح الأخطاء الإملائية. وني ile‏ الفصل» أعطي نبذة سريعة عن بعض 
النظريات المتقدمة التي تستخدم في أبحاث تطوير المدققات الإملائية مؤخرا وبعض 
المراجع الأساسية التي من الممكن أن يرجع إليها القارئ. 
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الفصل السادس: التدقيق الإملائي 


AM. 
منذ بداية نظرية الحوسبة في منتصف القرن الميلادي الماضى ومعالحة اللغات الطبيعة‎ 
iuge eie d ge Lll Ue اهن الجالاف الى يم‎ sided, نال‎ lag cal 
واللغويات والرياضيات والفلسفة. وتكمن أهمية معالجة اللغات الطبيعية في أن اللغة هي‎ 
الوسيلة التي يستخدمها الإنسان للتعبير عن مشاعره وللتواصل مع الآخرين» لذا كان‎ 
من الأهمية أن يتم العمل على حوسبة اللغة ليتمكن الإنسان من التواصل مع الحاسوب‎ 
المجالات التي‎ eal دون الحاجة لتعلم لغة جديدة. فبرز مجال الذكاء الاصطناعي كأحد‎ 
تم العمل عليها منذ ظهور نظرية الحوسبة. وكانت معالجة اللغات الطبيعية أبرز ملامح‎ 
مجال الذكاء الاصطناعي. والمتمثل بالاختبار الافتراضي الذي‎ ure هذا الفن. فكان‎ 
«(Turing Test) والمسمى ب اختبار تيورنج‎ (Alan Turing) وضعه ألان تيورنج‎ 
2196٠ Turing) معتمدا على التواصل مع الآلة باستخدام اللغة البشرية المكتوبة‎ 
حيث إن مبدأ الاختبار يقوم على أن يتم‎ (YT الفصل‎ (1440 Norving و‎ Russell 
والإنسان من‎ UYI وضع آلة وإنسان في مكان غير مرئي. ثم يقوم شخص بال حوار مع‎ 
خلال الكتابة» بحيث يكتب السؤال ويرسله إلى أي من الاثنين ومن ثم تأتيه الإجابة‎ 
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مكتوبة. فإذا كان هذا المحاور لا يستطيع التفريق بين الآلة والإنسان من خلال الردود 
التى تأتيه فإن الآلة تعتبر حينئذ ذكية وتكون قد اجتازت الاختبار. فك| هو ملاحظ من 
خلال هذه المنهجية أن معالجة اللغة تعتبر ركيزة في تأسيس مجال الذكاء الاصطناعي. 
ولا غرابة في ذلك» فاللغة تعتبر من أهم الوسائل للحصول عل Lai i all‏ 

ولما كانت النصوص المكتوبة تمثل الطريقة الأمثل والأسهل لتخزين المعرفة في 
الحاسوب» برزت أهمية العمل على تطوير البرمجيات التى تساعد المؤلف على الكتابة 
السليمة الخالية من الأخطاء. لذا بدأ العمل على تطوير المدقق الإملائي. فمنذ ستينيات 
القرن الميلادي الماضي» عكف الباحثون على فهم طرق الكتابة والتأليف وتطوير المعاجم 
اللغوية التي تساعد على اكتشاف الأخطاء الإملائية وتصحيحها )1964 (Damerau,‏ 
ومن ثم قامت كبريات شركات التقنية» کي بي gls OBM) el‏ تي أند ني (AT&T)‏ 
بتطوير هذه البرمجيات. وقد درج كثير من الباحثين على تطوير نظريات اكتشاف 
الأخطاء وتصحيحها ومن ثم تطويعها للعمل على بيئات أكثر تعقيداء كالنصوص 
المكتوبة من غير المتقنين» والأخطاء الإملائية التي تنتج كلمات أخرى صحيحة ولكنها 
لبسيت الكلات الاه 

وفي هذا الفصل سأقوم بداية بإعطاء نبذة عن مشكلة الإملاء في اللغة العربية 
وبعض التحديات التي يواجهها الباحثون في بناء المدقق الإملائي. وسأقوم أيضا في 
الجزء الأول من هذا الفصل بعرض لمحة عن المبادئ الرئيسة التي يعتمدها كثير من 
الباحثين في بناء المدقق الإملائي. ومن ثم في الجزء الثاني من هذا الفصل أستعرض 
طرق اكتشاف الأخطاء الإملائية والتحديات التي تعتريها. وفي الجزء الثالث أستعرض 
الطرق الأساسية التي طرحها الباحثون لتصحيح الأخطاء الإملائية آليا. ولآن الهمدف 
من هذا الفصل هو إعطاء نبذة عن المدققات الإملائية فإنني سأتجنب طرق التصحيح 
المتقدمة لكي يكون الفصل متاحا للقراء من مختلف الخلفيات المعرفية. وفي نهاية هذا 
١-مصادر‏ المعرفة ثلاثة: 

Prior knowledge الاستنتاج الذاتي‎ e 

Perception الإحساس‎ e 


Testimony النقل‎ e 
و اللغة هي الوسيلة التي تستخدم في الحصول على المعرفة من المصدر الأخير (النقل).‎ 
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الفصل أذكر بشكل سريع ومختصر الفكرة الأساسية لطرق التدقيق المتقدمة المبنية على 
نظرية الاحتمالات ومن ثم أسرد بعض المراجع التي يمكن للقارئ أن يرجع إليها إذا 
أ al‏ ا لاسرا من هذا البات. 

". التدقيق الإملائى للغة العربية 

Y‏ و١‏ اللغة العربية وإشكاليات قواعد الإملاء 

LS‏ هو معلوم لدى الكثيرين أن طرق الكتابة في اللغة العربية مرت بمراحل متعددة. 
فقد كانت الكتابة في بداية عصور التدوين تتم بحروف غير منقوطة. ولم تكن ال همزة 
وحروف التشكيل معروفة لدى العرب. فكانت الأحرف تعرف من سياق الكلمة. 
فمثلا حرف ال T‏ وال e T‏ نفس الرسم CE‏ لذا فكلمتي ”رحل“ deos‏ 
تكتبان ”رحل“ ويكون التمييز بينها أثناء القراءة من خلال السياق. وأثناء عصور 
التدوين ظهرت الحاجة للتفريق بين الأحرف التي ها نفس الرسم» فبدأ استخدام 
التنقيط كوسيلة لذلك. وتم أيضا فيا بعد إدخال حركات التشكيل والهمزة للتمييز 
بين الكلمات التي لها نفس الأحرف المجائية ولكن تختلف من حيث النطق. ونظرا 
لتوسع رقعة العام الإسلامي» OB‏ هذه الإضافات أحدثت بعض الاختلافات في 
قواعد كتابتها. وتغيرت هذه القواعد مع مرور الزمن وحدثت اختلافات في طريقة 
الكتابة بين أقاليم العام الإسلامي. فالياء المتطرفة (في ile‏ الكلمة) مثلاء تكتب في 
كتب التراث الإسلامي بلا تنقيط. أما في العصر الحديث فإنها تكتب بشكل شائع في 
كثير من دول العالم العربي بالنقط ولكن ظلت تكتب في بعض الدول العربية» كمصر 
مثلاء بلا تنقيط جريا على ما كانت عليه كتب التراث. كذلك بالنسبة للهمزة المتوسطة. 
فقد ظهرت طرق ختلفة لكتابتها بين بعض الأقاليم. فكلمة ”مسؤولية“ مثلاء تكتب 
بالطريقة السابقة وتكتب أيضا ede‏ الطريقة ”مسئولية“. فهذه الاختلافات في طرق 
الكتابة تجعل اعتبار ما هو صواب وما هو la‏ من حيث الإملاء أمرا غير حسوم. 

وبالرغم من أن اللغة العربية التي كتب بها القرآن الكريم محفوظة بحفظ الله لها في 
كتابه» إلا أن اللغة العربية الدارجة على الألسن تتأثر با يعتريها مع تغير الأزمنة» فتدخلها 
كلمات لم تكن معروفة أو شائعة على الألسن في زمن ما. لذا OB‏ بعض الدارسين للغة 
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العربية يصنفون اللغة العربية إلى صنفين''': 
e‏ الصنف الأول ويتمثل في العربية الفصيحة التقليدية «(Classical Arabic)‏ 
وهي اللغة المستخدمة في كتب التراث. 
٠‏ الصنف الثاني ويتمثل في العربية الفصيحة الحديثة Modern Standard)‏ 
«(Arabic‏ وهى اللغة المستخدمة في الكتابات الرسمية في العصر الحديث. 

إذ إن العربية الفصيحة الحديثة» فيا يرى المؤمنون بهذا التصنيف» تختلف عن العربية 
الفصيحة التقليدية من حيث الألفاظ» نظرا لدخول US‏ جديدة (CS‏ ذكرنا سابقا أو 
قلة استخدام بعض الكلمات التي كانت شائعة في وقت ما. وتختلف أيضا من حيث 
الإملاء» وقد ذكرت مثالا سابقا يتمثل في حالتي ال همزة والتنقيط. هذا فضلا عن 
الاختلافات في الظواهر اللغوية الأخرى التي لا #بمنا في هذا الفصل. وهذه التغيرات 
تجعل من التدقيق الإملائى عملا أكثر تحديا. فمعالجة النصوص التراثية تختلف عن 
dl a pal ions‏ وال iio o eal‏ اعد S JUNI‏ قن كلك عن 
معالجة نصوص مكتوبة في إقليم آخر. 

s‏ من أبرز صعوبات التدقيق الإملائى أيضا تلك المتعلقة بالتعرف على أسماء 
الأعلام. ولمناقشة الصعوبات المتعلقة بأسماء الأعلام» أستعرض حالتين. ال حالة الأول 
هي تغير نطق الأسماء مع الزمن» liag‏ يؤثر على طريقة كتابتها. أما ا حالة الثانية فهي 
دخول أسماء جديدة لم تكن معروفة في وقت سابق. ولكي نستعرض مثالا على ا حالة 
الأولى نأخذ الاسم ”سارة“. فإنه يكتب حاليا في نصوص متعددة بهذه الطريقة ”سارا“ 
نظرا لنطق الاسم بلا تحريك في الغالب» فتنطق التاء المربوطة في آخره elo‏ والتي 
تتلقاها بعض المسامع ألفا؛ لتشابه حرجي ا حرفين الماء والألف. إضافة إلى أن الشكل 
الأعجمي للاسم Sara"‏ يكون فيه الصوت الأخير حرفا يوافق الألف لا التاء أو 
cell‏ فيستخدم بعض الكتاب في العصر الحديث الصيغة المقابلة للنطق الأعجمي 
للاسم. أما الحالة الثانية» وهي دخول أسماء جديدة على اللغة» فإنه عند المرور بكلمة 
غريبة مثلاء ومن دون معرفة السياق» فإنه لا يمكن التأكد U‏ إذا كانت هذه الكلمة اسم 


-١‏ الجدير بالذكر أن كثيرا من متخصصي اللغة العربية يرفضون هذا التصنيف. ولست هنا بصدد ترجيح رأي أي من 
الفريقين» ولكن أعرض هذا Aa‏ كحالة موجودة في الدراسات اللغوية الحديثة» وتحديدا في دراسات ا حوسبة 
اللغوية. 
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علم أو كلمة أخرى كتبت بطريقة خاطئة. وخذ هذه الجملة مثالا توضيحيا: 
أعطيتها لانا. 

و هي جملة صائبة حيث إنها تعني أن المتحدث أعطى فتاة اسمها ”لانا“ شيئا ماء 
ots gà‏ الاي “GY”‏ غير موجود في المعجم الذهني للقارئ فإنه من دون الرجوع 
إلى الجمل السابقة أو اللاحقة هذه الجملة» والتي يمكن من خلاها معرفة أن الكاتب 
يتحدث عن شخص ما هنا وبالتالي يدخل هذا الاسم الجديد إلى معجمه الذهني» OP‏ 
القارئ إذا أخذ هذه الجملة بمعزل عن السياق فإنه ربا اعتبر هذه الكلمة خطأ إملائياء 
ورجح أن الكاتب أراد أن يقول «أعطيتها لبنا» ولكنه قلب الباء ألفا. 

لذا فإن هذه الأمور التى ذكرتها تمثل بعض التحديات التى تواجه عملية تطوير 
المدقق الآلي. yT‏ هذا الفصل طريقة بناء الات مع الاعتبارات التي 
يمكن أن يضعها المطور خلال بنائه ها. 

Y‏ , ” الأخطاء الإملائية الشائعة 

تكون الأخطاء الإملائية الناتجة عن الكتابة بالحاسوب على شقين: إما أن تكون أخطاء 
إدراكية Cognitive Errors)‏ و هي تلك التي تنتج عن عدم معرفة بالإملاء الصحيح 
للكلمة» وهذا النوع من الأخطاء يكون مشتركا في النصوص المكتوبة بالحاسوب أو 
تلك المكتوبة باليد» أو أن تكون أخطاء طباعية (Typographical Errors)‏ و هي تلك 
التي تنتج عن حدوث خلل أثناء إدخال الكلمات بواسطة لوحة المفاتيح. 

بداية فإن الأخطاء الإدراكية في اللغة العربية تقع في الغالب من: 

e‏ أحرف ها نفس الصوت. ومثال ذلك التاء المربوطة والتاء المفتوحة: 


الصواب: فعاليات تكتب خطأ: فعالياة 
الصواب: قضاة تكتب خطأ: قضات 
e‏ أحرف لما نفس الصوت عند الوقف أو الابتداء. ومثال ذلك gje‏ الوصل 
والقطع. والتاء المربوطة والحاء: 
الصواب: ابن تكتب خطاً: إبر: 
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الصواب: أستعمل (للمضارع) تكتب خطأ: استعمل 


الصواب: حديقة تكتب خطأ: حديقه 
الصواب: أرداه تكتب خطأ: أرداة 


e‏ أحرف تنطق ولا تكتب. مثال ذلك الألف اللينة: 
الصواب: هذا تكتب خطأ: هاذا 
الصواب: لكن تكتب خطأ: لاكن 
Gl‏ الشق الثاني من cea I‏ وهو الأخطاء الناتجة عن خلل أثناء إدخال الكلمات 


عن طريق لوحة المفاتيح» فإنه يظهر عادة على شكل أربع حالات Yassen. ; Haddad)‏ 
Kukich« 1992‏ :2007( وهى: 


A‏ حذف حرف» ومثال ذلك: 
الكل اة سر s Add‏ (حذف الحرف الثاني) 


zY‏ إضافة حرف» ومثال ذلك: 


n Tm e N asa dad XT 
حرف بحرف آخرء ومثال ذلك:‎ pas .۳ 
ب من)‎ dei الكلمة المعنية: يستمر‎ 
قلب حرفين متجاورين» ومثال ذلك:‎ .5 
uo الكلمة المعنية: يستمر الملخلة: يسدر‎ 


وقد أضافت Kukich‏ صنفا E‏ من الأخطاء وهو: الأخطاء الناتجة عن تشابه 
الأصوات .(Phonetic Errors)‏ ويمكن للأخطاء الناتجة عن تشابه الأصوات أن 
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تكون حالة خاصة من الأخطاء الإدراكية» إذ إن الخطأ في الإملاء الناتج عن تشابه 
الأصوات لبعض الحروف قد يكون ناتجا عن عدم معرفة الكاتب بالحرف الصحيح 
الموجود في الكلمة فيستبدله بحرف آخر له نفس الصوت )1992 (Kukich«‏ وقد 
يكون الخطأ ناتجا عن عدم التركيز» بالرغم من معرفة الكاتب بالإملاء الصحيح للكلمة 
وبالتالي يمكن أن يندرج هذا الخطأ تحت الأخطاء الطباعية. 

أما الأخطاء الطباعية فتكون متوقعة وشائعة بسبب الرغبة في الإدخال السريع 
للكلمات من قبل الكاتب. فأثناء الإدخال السريع يحدث ألا يتم الكبس على زر أحد 
الأحرفء أو أن يتم الكبس على زر حرف إضافي وعندها تحدث الحالتان الأولى والثانية 
من الحالات الأربع أعلاه. وأما الحالة الثالثة فإنها قد تحدث بسبب قرب الحرفين الذين 
تم تغييرهما في الكلمة على لوحة المفاتيح ما يجعل المدخل يكبس على زر الحرف الخطأ 
بدلا من الحرف الصحيح. وهذه جميعها يمكن تصنيفها تحت الأخطاء الطباعية. ومن 
أسباب الحالة الثالثة أيضا تشابه صوتي الحرفين الذين تم تغير أحدهما بالآخر والذي 
يجعل المدخل يدخل الحرف Ul‏ والذي له نفس صوت ال حرف الصحيح كما هو الحال 
في كلمتي ”فعاليات“ و“فعالياة“ مثلا. و هذا النوع من الأخطاء قد ينتج بسبب ضعف 
التركيز والرغبة في الإدخال السريع» أو الجهل بالإملاء الصحيح للكلمة. لذا يمكن 
تصنيف هذا النوع من الأخطاء إلى أخطاء ناتجة عن تشابه الأصوات» أو بصورة أعم إلى 
أخطاء إدراكية في حالة الاعتقاد بعدم معرفة الكاتب بالإملاء الصحيح للكلمة» أو إلى 
أخطاء طباعية في حالة الاعتقاد بمعرفة الكاتب بالإملاء الصحيح للكلمة. IH UT‏ 
الرابعة فإنها تحدث عادة لتسابق إصبعي المدخل أثناء الإدخال السريع فيدخل حرفا قبل 
الآخر بشكل خاطئ. و هذه الحالة يمكن أن تندرج تحت الاخطاء الطباعية. 

وقد تحدث الأخطاء الطباعية بوعي من المدخل وذلك لأسباب منها أن بعض 
الأحرف تحتاج إلى أن يقوم المدخل بالكبس على زرين اثنين بدلا من زر واحد» وتحدث 
هذه كثيرا في الحروف المهموزة. فمثلا الحرف ”أ“ يلزم أن يقوم المدخل بالضغط على 
الزر Shift‏ ومن ثم زر الحرف I‏ ونظرا oM‏ المدخل يرغب في الإدخال السريع فإنه 
قد يلجأ للضغط مباشرة على الزر ۳“ لكى يتفادى الضغط على زرين ولأن الحرفين 
متشابهان في النطق والكتابة )2004 (Buckwalter«‏ وأيضا قد يحدث الإدخال الخطأ 
نتيجة لعدم وجود الحرف المطلوب في لوحة المفاتيح. وهذا النوع من الأخطاء يحدث 
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كثيرا في النصوص المدخلة في بداية تعريب الحاسوبء إذ إن لوحات المفاتيح المصنعة 
في ذلك الوقت كانت تحتوي على الحروف الحجائية الرئيسة وبعض مشتقاتها الأساسية 
فقط. فمثلاء الحروف Cg"‏ ”ئ“ UP‏ و“ لا“ oo‏ لا توجد في بعض لوحات المفاتيح 
القديمة. وبالتالي يلجأ المدخل ا الحروف الحجائية الرئيسة المقابلة ها. فمثلا 
يتم إدخال كلمة ”الآخرة“ بهذا الشكل ”الاخرة“ أو بهذا الشكل ”الأخرة“. وأيضا 
كلمة ”المسؤول“ يمكن أن يتم إدخاها بهذا الشكل ”المسوول“. 

واستعراضنا لطبيعة الأخطاء الإملائية وكيفية حدوثها في هذا الجزء Qu‏ من رغبتنا 
في إعطاء القارئ الكريم نبذة عن بعض مسببات هذه الأخطاء. وبالإمكان أخذ هذه 
المسببات بعين الاعتبار في تطوير المدققات الإملائية سواء من حيث الاكتشاف أو 
التصحيح. 

PX GM Y, Y 

يعتبر اكتشاف الأخطاء الإملائية (Spelling Error Detection)‏ المكون ^" 
للمدقق الإملائي. ومن ol e‏ تصحيح الخطأ (Spelling Error Correction)‏ يعتبر 
عنصرا إضافيا. لذا فإنه بالإمكان تطوير مدقق إملائي يتكون من مكتشف الأخطاء فقط 
دون أن يقوم باقتراح الكلمة الصحيحة. وني هذه IL‏ يقوم المدقق الإملائي بالإشارة 
إلى الكلمات الخطأ في النص وإبرازها للكاتب وترك الكاتب ليقوم بتعديلها دون إعطائه 
il‏ مقترحات. ولكن المدققات الإملائية الحديثة تعتمد الاكتشاف والتصحيح. إذ إن 
تصحيح ail‏ هو عبارة عن اقتراح بعض الكلمات للكاتب والتي قد تكون إحداهن 
هي الكلمة الصحيحة. أو أن يقوم المصحح باختيار إحدى الكلمات التي تعتبر الأقرب 
للصواب بناء على الخوارزمية المستخدمة ويضعها مكان الكلمة الخطأ بشكل آلي. 
وعملية تصحيح الخطأ تعتبر أكثر تحديا من عملية اكتشاف الخطأء إذ إن معرفة الكلمة 
التي يريدها الكاتب عملية يحيط بها الكثير من الغموض. 

Ul‏ بالنسبة لاكتشاف الأخطاء فإنه بداية يمكن تصنيف الأخطاء إلى صنفين: 

.(Non-Word Error) اللغة‎ (ls كلم ليست من‎ eiu. ١ 

as Y‏ تحب كلما من كلاف e eo ceat Le y all‏ وکل يعني 

. (Real-Word Error) à 4-1 
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ولايسمح بنشرها ورقياً 
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و مثال الصنف الأول: 
فبدلا من إدخال كلمة «فوق» تم إدخال كلمة «فقو» والتي ليست من كلمات اللغة 
sadi‏ 
ومثال الصنف الثاني: 
وضعت الكامن وفق الطاولة 


فكلمة «وفق» من كلمات اللغة العربية» ولكنها ليست ذات معنى في سياق الجملة» 
وتعفر ا اة وجو دهده الكل جا لا مع ها 

ويعتبر اكتشاف الصنف الثاني من الأخطاء أكثر تحديا من اكتشاف الصنف الأول» إذ 
إنه لاكتشاف خطأ من هذا الصنف» يحتاج الشخص إلى ربط الكلمة بالكلمات الأخرى 
في الجملة ومن ثم معرفة السياق. وبحكم أن اكتشاف هذا النوع من الأخطاء يحتاج إلى 
بعض الخوارزميات المتقدمة» فإننا في هذا الفصل» والذي بهدف إلى إعطاء مقدمة عن 
المدققات الإملائية» سنتكلم عن اكتشاف الصنف الأول من الأخطاء فقط. 

و فيا يتعلق بتصحيح الأخطاء» فإنه أيضا يمكن تصنيف طرق التصحيح الرئيسة 
إلى صنفين )1992 :(Kukich«‏ 

.(Isolated- Word Error Correction) تصحيح الكلمة بشكل مستقل‎ .١ 

Context-Dependent Word) تصحيح الكلمة مع أخذ السياق بعين الاعتبار‎ LY 

. (Correction 

فالطريقة الأولى تقوم على أساس تصحيح الكلمة دون اعتبار للسياق عند اقتراح 

الكليات الصحيحة. فلو أخذنا الجملة السابقة: 


وضعت الكأس فقو الطاولة 
فإن المصحح قد يقترح الكلمات التالية: 
فقول» 3 3( قوء فقواء فقه» وفق» .. 


على الرغم من أنه باستثناء كلمة «فوق)» فإن الكلمات الأخرى المقترحة لا تناسب 
السياق» ولا تعطي للجملة معنى مفهوماء ولكن هذه الكلمات تم اقتراحها OY‏ 
المصحح لا يأخذ السياق بعين الاعتبار. 
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أما في الطريقة الثانية» فإن المصحح ربا يقترح كلمة «فوق» فقط دون الكلمات 
الأخرى التي تم اقتراحها في الطريقة الأولى؛ لأنه درس السياق ووجد أن هذه الكلمة 
هي الكلمة المناسبة لسياق الجملة. وني هذا الفصل سنكتفى بدراسة الطريقة الأولى 
فقط. l‏ 

۳. اكتشاف الأخطاء 

يعتبر اكتشاف الخطأ هو الخطوة الأولى في التدقيق الإملائي» (o s‏ تكون الخطوة 
الوحيدة ف حالة أن اللاقن en p areas E E E yl‏ 
طريقتان شائعتان لاكتشاف الأخطاء. الطريقة الأولى» وهي الأكثر تطبيقا بحسب علم 
الكاتب» هي تلك التي تعتمد استخدام المعاجم اللغوية في اكتشاف الأخطاء. وتستخدم 
هذه الطريقة لاكتشاف الأخطاء بناء على الكلمات فقط دون النظر إلى السياق. والطريقة 
الثانية هي تلك التي تستخدم نظرية الاحتمالات» وتستخدم هذه الطريقة عادة في 
اكتشاف الأخطاء بناء على السياق. وسنكتفي بمناقشة الطريقة الأولى في هذا الجزء. 

تعتبر المعاجم اللغوية المصدر والمرجع الأساس لكلمات اللغة» وتتكون من مجموعة 
من كلمات اللغة واشتقاقاتها. وتختلف المعاجم في حجمهاء فقد يتكون معجم ما 
لإحدى اللغات من عدد معين من الكلمات وقد يكون هنالك معجم آخر لنفس اللغة 
يحتوي على عدد أكبر من الكلمات. ويمكن ضرب مثال على اختلاف المعاجم بالحصيلة 
اللغوية للأشخاص . فالحصيلة اللغوية لشخص ما هي الكلمات المخزنة في ذاكرته والتي 
يمكن اعتبارها معجم| ذهنيا للشخص. فقد ياي شخص آخر يتكلم نفس اللغة ولكن 
بحصيلة لغوية مختلفة» أي بعدد كلمات مختلف وبمجموعة مختلفة عن المجموعة التي 
لدى الشخص الأول بحيث تتقاطع المجموعتان بعدد لا بأس به من الكلمات. فالمعجم 
اللغوي لشخص في سن السابعة مثلاء أقل بكثير في الظروف الاعتيادية للمعجم 
اللغوي لشخص في سن العشرين. وكذلك ال حال بالنسبة للمعاجم المدونة» فقد يحتوي 
معجم ما تم بناؤه من ذخيرة لغوية معينة على مجموعة من الكلمات تختلف عن معجم تم 
بناؤه من ذخيرة لغوية أخرى. فلو أردنا على سبيل المثال بناء معجم لغوي من نصوص 
مأخوذة من كتب في الاقتصاد, فإن هذا المعجم سيختلف عن معجم آخر تم بناؤه من 
نصوص مأخوذة من كتب في الطب. بل إنه لو بنينا معجمين لغويين من كتب في نفس 
الفن ولكن لمؤلفين مختلفين بحيث يكون كل معجم مبني من كتب أحد المؤلفين» le‏ 
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خرجنا بمعجمين مختلفين أيضاء OY‏ الحصيلة اللغوية لكل مؤلف ستنعكس على كتابته 
واستخدامه للكليات. 

إن اكتشاف الأخطاء الإملائية بالرجوع إلى المعاجم اللغوية من دون النظر إلى 
السياق هي عملية لا تتعدى البحث في المعجم عن كل كلمة في النص المعالج. فإذا 
كانت الكلمة موجودة في المعجم فإن هذه الكلمة تعتبر صحيحة» أما إذا كانت الكلمة 
غير موجودة في المعجم فإنها تعتبر خطأ. لذا فإنه من الضروري في تصميم المعاجم 
التي تستخدم في المدققات الإملائية أخذ النقاش السابق بعين الاعتبار. فإن اتخاذ قرار 
بعدم إضافة كلمة إلى المعجم يعني أن المدقق الإملائي سيعتبر هذه الكلمة خطأ عند 
المرور بها في أي نص» وكذلك قرار إضافة كلمة إلى المعجم يعني أن هذه الكلمة ستعتبر 
من كلمات اللغة» وبالتالي فستعتبر صحيحة. وبالنظر إلى هذا فإنه قد يتم بناء معاجم 
محصصة لفن من الفنون» أي أنه قد يتم بناء معجم لغوي يستخدم في التدقيق الإملائي 
للكتابة في مجال الاقتصاد مثلا. وقد يبنى هذا المعجم من ذخيرة لغوية كبيرة مؤلفة من 
كتب ومقالات في الاقتصاد لمؤلفين كثر بحيث تحتوي على أكبر عدد من الكلمات في هذا 
الفن. وربما يحتوي هذا المعجم على بعض الكلمات التي في أصلها ليست من اللغة التي 
يكتب بها النص ولكنها مستوردة من لغات أخرى. فلو كان النص عربيا فقط سيحتوي 
المعجم على كلمات إنجليزية معربة تستخدم في Jle‏ الاقتصاد. 

لكن تصميم معجم لكل فن بحيث يستخدم الكاتب المعجم الذي يريد Sta‏ على 
موضوع كتابته قد لا يروق لكثير من المستخدمين. إذ إن المستخدم قد يكتب LLS‏ أو 
مقالة عامة تتطرق لأكثر من فن في آن واحدء وفي كثير من الأحيان قد يكتب المؤلف 
موضوعا في فن ما ويستلهم نقاطا من فنون أخرى؛ لذا OB‏ الحاجة كبيرة لمعجم عام للغة 
يمكن استخدامه للتدقيق الإملائي» هذا المعجم يمكن بناؤه من ذخيرة لغوية مكونة من 
نصوص مأخوذة من فنون ومعارف شتى» pos‏ تكون هذه النصوص من حقب زمنية 
مختلفة ومكتوبة بواسطة مؤلفين من أقطار مختلفة» والمعجم الناتج في هذه UH‏ ربا 
يكون كبيرا بالمقارنة مع المعاجم المتخصصة. لكن هنالك إشكالية في هذا النوع من 
المعاجم أيضاء فنظرا لأنه يحتوي على عدد كبير من الكلهات» OB‏ كثيرا من الكلمات 
قد لا تستخدم إلا بنسب قليلة جدا في النصوص التي تكتب» وهذه الكلمات تشكل 
مشكلة للمدقق الإملائي» إذا إن الغالبية من ÉSI‏ قد لا يحتاجون هذه الكلمات» 
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ولكنهم يستخدمون كلمات أخرى مشابهة لا في الإملاء. وفي حالة وقوعهم في أخطاء 
في كتابة الكلمات التي يريدون» ونتج عن هذه الأخطاء هذه الكلمات القليلة الاستخدام» 
فإن المدقق الإملائي لن يعتبرها خطا؛ نظرا لوجودها في المعجم )1980 (Peterson«‏ 
فعلا سبيل المثال» لو أخذنا كلمة ”الكرى“ وتعني النوم أو النعاس» فهذه الكلمة ريما 
قل استخدامها في النصوصء فقد يقول قائل إن إضافتها للمعجم المستخدم بواسطة 
المدقق الإملائي قد تمنع المدقق الإملائي من اكتشاف أخطاء لكلمات أخرى مشابهة» 
كتبت خطأ على هيئة هذه الكلمة مثل ”الثرى“ و“الكرم“. فلو أن الكاتب أخطأ في كتابة 
”الكرم“ وكتبها ”الكرى“ فإن المدقق الإملائي لن يشير إلى كلمة ”الكرى“ على lel‏ خطاً 
نظرا لوجودها في المعجم» وني ال مقابل فإن آخرين قد يرون إضافة جميع الكلمات ال معروفة 
إلى المعجم الخاص بالمدقق الإملائي. وعلى أية حال» فإنه لا توجد قاعدة معينة يمكن 
تطبيقها على ما هي الكلمة التي يجب أن تضاف إلى المعجم وما هي الكلمة التي يجب 
ألا تضاف» ويبقى هذا القرار خاضعا لمصمم المدقق الإملائي. ويذكر Peterson‏ أنه في 
حالة معالجة ذخيرة لغوية لبناء معجم للمدقق الإأملائي» فإنه بالإمكان وضع حد معين 
بحيث إن أي كلمة تتكرر في النص (Bo‏ من هذا الحد تعتبر كلمة قليلة الاستخدام» ولا 
تضاف للمعجم حتى لا تشكل على غالبية المؤلفين» في تضاف جميع الكلمات التي 
تزيد عن هذا الحد )1980 (Peterson:‏ أما تحديد هذا الحد فهو قرار هندسي يخضع 
للمصمم» وني حال لو وردت كلمة ما في النص واعتبرها المدقق الإملائي خطأ بينا هي 
صحيحة فإن الكثير من المدققات الإملائية - كالمدقق الإملائي لمحرر مايكروسوفت 
(Microsoft Word)‏ والمدقق الإملائي ا (Aspell)‏ - تتيح للمستخدم إمكانية 
إضافة هذه الكلمة إلى المعجم اللغوي» فتصبح من كلمات اللغة التي يستخدمها المؤلف. 
فلو افترضنا أن كلمة ”الكرى“ في JULI‏ أعلاه ليست موجودة في المعجم اللغوي للمدقق 
الإملائي» وقام المؤلف باستخدامها وهو يعنيهاء فإن المدقق الإملائي بعد أن يشير إلى 
أن هذه الكلمة خطأء فإنه سيعطي الخيار ”إضافتها إلى المعجم» إلى المؤلف. وني حالة أن 
المؤلف اختار هذا الخيار» فإن الكلمة ستكون من مجموع كلمات المعجم» ولن يشير إليها 
المدقق الإملائي ككلمة خطأ عند استخدامها مرة أخرى. 


1- http://aspell.net/ 
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وعادة ما يقوم مصمم المدقق الاملائي باتخاذ قرارته الهندسية بناء على هذه المعايير: 

Number of True Positive) Ule التعرف‎ e الكلات الخطأ التي‎ sae (a 
TP وسيتم الإشارة إلى هذا المعيار اختصارا ب‎ .(Cases 

Number of False Negative) عدد الكليات الخطأ التي لم يتم التعرف عليها‎ (b 
FN وسيتم الإشارة إلى هذا المعيار اختصارا ب‎ . (Cases 

Number of ) عدد الكلمات الصحيحة التى تمت الإشارة إليها على أا خطأ‎ (c 
وسيتم الإشارة إلى هذا المعيار اختصارا ب12.‎ .(False Positive Cases 

فإنه عند تصميم المدقق الإملائي» GU‏ الرغبة دائ) في زيادة المعيار الأول وتقليل 
المعيارين الثاني والثالث. وبناء على هذه المعايير الثلاثة يأتي تقييم أداء المدقق الإملائي 


بحساب ثلاث قيم رياضية: 
IF 0 s.‏ 
الدقة (Precision)‏ مع دا م7 
وتمثل نسبة الكلمات الخطأ التي تم التعرف عليها بشكل صحيح من بين الكلمات 
التي تمت الإشارة إليها على Ll‏ خطأ. 
I f E ١‏ 
الاسترجاع (Recall)‏ بزع دمع 
et y‏ سبة al cos‏ الى ف ci el‏ عليها يكل ero‏ من بن الكاات 
الخطا الموجودة في النص. 


Precision X Recall ( jaui 
—— ح لس‎ -measure) e! ياس‎ 
Precision + Recall 


ويمثل معدل الدقة والاسترجاع. 

فلو افترضنا أنك أردت أن تقيم slal‏ أحد المدققات الإملائية وأدخلت له نصا فيه 
٠‏ كلمة» Y Y‏ منها خطأ. فلو اكتشف المدقق الإملائي ۱۹١‏ كلمة من هذه ال 
Gu ۳‏ أشار إلى Yo‏ كلمة صحيحة على أنها خطأء ol‏ أداء هذا المدقق الإملائى 
سيكون كالتالي: 
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FN =213-— 190 = 3 FP=15 TP = 0 


Precision = 92.7 % Recall = 89.2 % F-measure = 90.7 % 


نصحيح الأخطاء 

يمكن شرح عملية التصحيح الآلي للأخطاء الإملائية بأنها sU]‏ الكلمات الأقرب 
للصواب لتحل محل الكلمات الخطأء ومن هذا المنطلق العام» OB‏ كل مطور بإمكانه 
أنه يعمل على تطوير خوارزميته الخاصة لإيجاد الكلمات الأقرب للصواب بناء على 
اعتباراته. وسنشرح في هذا الجزء إحدى الطرق الأساسية المطورة في جال التصحيح 
والتى تعتمد على الكلمة الخطأ فقط. (CS‏ ذكرنا سلفاء دون أخذ السياق بعين الاعتبار. 

با أن الكلمة Ra a adl‏ الوهيدة الى نكن خن طريقها gl‏ الكلمة 
الصحيحة» فإن أحد مبادئ التصحيح الشائعة يقوم على أساس أن هذه الكلمة هي 
إحدى الكليات الصحيحة ولكنها تعرضت لبعض التغيير نتيجة لخطأ ما. لذا فإنه 
يمكن استنتاج الكلمة الصحيحة من هذه الكلمة الخطأء وذلك بافتراض أن الكلمة 
الصحيحة هى إحدى الكلمات القريبة هجائيا من هذه الكلمة. وبالحديث عن القرب» 
OL PU E ben ceo‏ يكم يه خافن قور قري كلمن م ها 
ولأننا نرغب في معرفة قرب كلمتين من بعضهما هجائيا فإن المسافة التي نريد تعريفها 
هنا يجب أن تكون مسافة هجائية. l‏ 

يمكن Y‏ مطور لمدقق إملائي أن يعرف المسافة بالطريقة التي Lal y‏ تحسن من أداء 
التصحيح T‏ ومن التعريفات التي تم وضعها للمسافة بين كلمتين والتي تستخدم 
كثيرا في معالجة اللغات البشرية وفي التصحيح الإملائي هي مسافة دميراو-ليفينشتاين 
(Damerau-Levenshtein)‏ و التي يمكن تعريفها :(Damerau- 1964) JIL‏ 

”مسافة دميراو-ليفينشتاين بين كلمتين: (م) ويطلق عليها الكلمة المصدرء و(اه) 
ويطلق عليها الكلمة الهدف. هي أقل عدد من العمليات التالية: إضافة حرف» حذف 
حرف» تبديل حرف بحرف آخرء أو قلب حرفين متجاورين» والتي يمكن إجراؤها 
على الكلمة (م) لتحويلها إلى الكلمة (ه) . 


-١‏ وقد يعتمد طرقا أخرى للتصحيح غير المسافة. 
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ويطلق على هذه المسافة أيضا في بعض المراجع بمسافة أقل العمليات التحريرية 
(Minimum Edit Distance)‏ . والعمليات الأربع المذكورة في التعريف هي العمليات 
التي تم شرحها في الجزء ۲ .٠,‏ ولكي نأخذ مثالا على هذه المسافة» فلنأخذ الكلمة 
”فقو“ ىا في المثال المذكور في الجزء ١,7“‏ ونعتبرها هي الكلمة المصدر أو الكلمة (م) 
كما في التعريف. OB‏ جدول Y‏ أدناه يعطي بعض الكلمات الهدف والمسافة بينها وبين 


هذه الكلمة. 
الكلمة المصدر (p‏ فقو 
الكلمة الهمدف a.i‏ 
(œ)‏ 
فقول ١‏ إضافة حرف في أخر الكلمة. 
فوق ١‏ قلب الحرفين الأخيرين. 
قلب الحرفين الأخيرين فتصبح الكلمة «فوق». 
وفق y‏ ومن ثم قلب الحرفين الأولين للكلمة الجديد "فوق" فتصبح 
va‏ 
: 5 حذف الحرف الثاني. 
a‏ إضافة حرف في نهاية الكلمة. 
تبديل الحرف الأول 9 ب A‏ 
تبديل الحرف الثاني "فى" AR‏ 
تبديل الحرف e AG‏ ب ق" 
واق 5 وهنالك طريقة أخرى وهي: 


حذف الحرف الأول فتنتج الكلمة "قو". 
قلب الحرفين للكلمة الجديدة فتنتج الكلمة "وق" 
إضافة حرف "I"‏ بين الحرفين الأول والثاني للكلمة الناتجة من 
العملية الثانية. 
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الكلمة المصدر (p‏ فقو 


تبديل الحرف الأول i»‏ (ي). 
تبديل الحرف الثاني "5" turae‏ 
تبديل الحرف ¿JEI‏ و ب "an‏ 


جدول :١‏ مسافة دميراو-ليفينشتاين بين الكلمة ”فقو“ وبعض الكلمات الأخرى. 

فتطوير مصحح إملائي بالاعتماد على هذه المسافة يكون باعتبار أن الكلمة المصدر 
هي الكلمة الخطأء والبحث في المعجم عن الكلمات التي تبعد مسافة معينة عن هذه 
الكلمة» ومن ثم اقتراحها للمستخدم. يمكن تحديد سقف أعلى للمسافة التي تؤخذ 
بعين الاعتبار للبحث عن الكلات المقترحة حتى لا يتم اقتراح قائمة طويلة جدا من 
الكلمات. فمثلا يمكن تصميم المصحح الإملائي بحيث يقترح الكلمات التي تبعد Y‏ 
فقط بحد أعلى عن الكلمة الخطأ. وعلى هذا الأساس يمكن ترتيب الكلمات المقترحة 
من حيث قربها للصواب بحسب مسافتها من الكلمة ail‏ فمثلا توضع الكلمات التي 
تبعد المسافة Y‏ عن الكلمة الخطأ في أعلى قائمة الكلمات المقترحة باعتبار les Led‏ تكون 
هي الأقرب للصواب. ومن ثم توضع الكلمات التي تبعد CY BLU‏ ومن ثم المسافة 
Y‏ إذا كان المصحح يذهب أبعد من ۲» وهكذا إلى أن يصل إلى الكلمات التي تبعد الحد 
الأعلى الذي تم تحديده وتكون هذه الكلمات في مؤخرة القائمة. 

5. إشارة ختامية إلى الفكرة العامة لبعض التقنيات المتقدمة وبعض المراجع 

العديد من الطرق المتقدمة والتي تم تصميمها للتدقيق الإملائي تعتمد على نظرية 
الاحت)لات (Probability Theory)‏ وخاصة في عمليتي التصحيح بشكلها العام 
واكتشاف الأخطاء بناء على السياق وليس بناء على الكلمة فقط. ونظرية الاحتمالات 
هي النظرية الرياضية التي تعطي قياسا لعدم التأكد (Uncertainty)‏ أو درجة الاعتقاد 
(Degree of Belief)‏ . فلو سألت شخصا عن صحة حادثة معينة» وهو غير متأكد من 
صحتهاء فقد يجييك ب ”أعتقد أنها صحيحة بنسبة كذا“. وهذه النسبة تمثل درجة 
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اعتقاده بصحة الحادثة. فعلى سبيل المثال» لو أن شخصا تحدث وقال ”السلام“ ثم 
توقف لبرهة» OB‏ شخصا آخر ربا يقول ”أعتقد بنسبة 4١‏ في المائة أن الكلمة التالية هى 
”عليكم“» وهذا يمثل عدم تأكده الكامل مما سيقوله المتكلم» إذ إنه ربا يقول ار 
يريد بها ”على الحضور“ مثلا. وكذلك يمكن تصميم مدقق إملائي بحيث يكتشف 
ويصحح الأخطاء بناء على نموذج احتمالي للغة يمكن من خلاله قياس احتمال صواب 
أو خطأ الكلمات وفق سياقاتها. ]5 إنه يمكن من خلال هذا النموذج اكتشاف وتصحيح 
الأخطاء بناء على درجة الاعتقاد بالصواب والخطأ. 

وأضع هنا بعض المراجع التي يمكن من خلاها الاستزادة من هذه المواضيع» وأعتذر 
للقارئ الكريم من أن هذه المراجع جميعها باللغة الإنجليزية. يمكن الرجوع Casella.J‏ 
Casella) Berger ;‏ و Berger‏ < 2002( للتوسع في نظريات الاستنتاج الإحصائي 
والاحتمالات. LÍ‏ بالنسبة لاكتشاف الأخطاء وتصحيحها باستخدام الناذج الاحتالية 
فإنه يمكن الر جوع للفصل الخامس من Martin‏ و Jurafsky) Jurafsky‏ و Martin‏ 
0 ويمكن الرجوع ل Kernighan‏ وآخرين co T, Kernighan)‏ ۱۹۹۰) 
وكذلك Brill ; Moore) Moore ; Brill‏ < 2000( للاطلاع على كيفية استخدام 
نموذج احتالي مستوحى من نظرية المعلومات والاتصالات يعرف بالقناة الصاخبة 
(Noisy Channel)‏ لتصحيح الأخطاء الإملائية. وهذا النموذج يستخدم كثيرا في 
الأبحاث وربا بعض الأنظمة الحديثة في التصحيح الإملائي. ويمكن أيضا الرجوع 
ل Church) Gale Church‏ و Gale‏ < 1991( للاستزادة من كيفية استخدام نظرية 
الاحتالات لتصحيح الأخطاء الإملائية. 
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شكر وإهداء 

الحمد لله أولا وقبل كل شىء» فله الفضل والمنة على ما يسر من سبل الحصول على 
d al‏ ومح e] i‏ هذا الحمل» 

أشكر أسرة تحرير الكتاب على دعوتهم لي لكتابة هذا الفصل» وأتمنى أن أكون قد 
وفقت في كتابة ما يفيد القارئ الكريم. 

الكثير مما قرأته ومن ثم كتبته في هذا الفصل تعلمته أثناء عملي في أبحاث لتقويم 
المقالات العربية وكذلك التدقيق الإملائي للغة العربية. ومن شاركت معهم في هذه 
الأعمال واستنرت بأفكارهم واستفدت من نقاشاتهم: الدكتور محمد الكنهل» عبدالعزيز 
القباني» محمد الحماديء علي عريشي» أثير الخليفة» ولياء القويعي. كا أشكر الأستاذ 
منتصر أحمد الذي قام بمراجعة لغوية لهذا الفصل» والشكر موصول أيضا للدكتور 
عبدالفتاح عبيد. ويجب التنويه على أن أي خطأ في هذا الفصل فهو مني وحدي. 

والداي الكريمان» الدكتور عبدالله الصانع و سارة البطيء لما الفضل بعد الله 
سبحانه Ud‏ 3 تعلمته وعملته» أسأل الله سبحانه وتعالى أن ec je‏ عني خير الجزاء. 
دائها وأبدا أشكر زوجتي نوف الرويشد على صبرها على انشغالي وغيابي الذهني الكثير 
خلال قراءاتي وعملى» وأسأل الله سبحانه وتعالى أن يجعل ذلك في موازين حسناتها. 

أهدي هذا كيد المتواضع QAUM‏ عبدالعزيز» نواف» وسارة. 
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إهداء من المركز 
ولايسمح بنشرها ورقياً 
أو تداولها تجارياً 
الموضوع اسم الباحث 
الفصل الأول: الصوتيات الحاسوبية أ. د. منصور بن محمد الغامدي 
الفصل الثاني: التحليل الصرفي د. عبدالعزيز بن عبدالله المهيوبي 
الفصل الثالث: التحليل النحوي أ. أحمد روبي محمد عبدال o?‏ 


الفصل الرابع: التحليل الدلالي 
aa‏ الاين uec o‏ 


Le dac E الفضل‎ 


د. إشراق على أحمد الرفاعى 
». صلاح راشد الناجم 


OOO 


A 
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هذه الطبعة 
إهداء من المركز 
ولايسمح بنشرها ورقياً 
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فهرس المحتويات 


مقدمة المحرر 6 


الفصل الأول: الصوتيات الحاسوبية Y‏ 


۳ المقدمة‎ ١ 


Yo الصوتيات‎ Y 


E الصوتيات النطقية‎ , Y 
Ye الصوتيات الأكوستية‎ Y , Y 
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Yo الصوتيات السمعية‎ Y , Y 
Y تطبيقات وتقنيات ذات علاقة بالصوتيات‎ Y 
YA على الكلام‎ QNI التعرف‎ ”. ١ 
ve JJ تولید الکلام‎ ٣,۲ 
Y التعرف على المتحدث آل‎ Y LY 
vy الخاتمة‎ ٤ 
£o الفصل الثاني: التحليل الصرفي‎ 
۸ خصائص الصرف العربي‎ ١ 
£4 الحاسوب ومحاكاة تفكير الإنسان‎ Y 
o التحليل الصرفي‎ Y 
o JN المحلل الصرفي‎ ٤ 
o! توأمة النحو والصرف في المعالحة الآلية‎ 5 
oY أهمية التحليل الصرفي‎ 5 
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V‏ الهدف من بناء محللات صرفية آلية للغة العربية 


^ عرض نتائج التحليل 

4 خطوات عمل المحلل الصرفي الآلي 

٠‏ نظرة تاريخية للتحليل الصرفي JYI‏ للغة العربية 

JYI طرق التحليل الصرفي‎ ١ 

Y Y‏ ضوابط ومحددات للمساعدة في بناء المحللات الصرفية 

۳ مشكلات تواجه بناء محلل صرفي دقيق لكلمات اللغة العربية ونصوصها 
7.١‏ مشكلات لغوية: 

Y‏ مشكلات حاسوبية: 

QVI كيفية توصف القواعد الصرفية لبناء المحلل الصرفي‎ ٤ 

Yo‏ متطلبات بناء المحلل الصرفي الآلي 

7 قصور المحللات الإنجليزية عن استيعاب خصائص اللغة العربية 


۷ لماذا تفوقت المحللات الصرفية العالمية على العربية؟ 
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oY 


of 


of 


o1 


q) 


YY 


TY 


Ww 


11 


WW 


WW 


1۸ 


E 
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أسس مقترحة لبناء محلل صرفي دقيق للغة العربية 


9 منتهى غايتنا عند بناء محلل صرفي حاسوبي 
iil ٠‏ 

الفصل الثالث: التحليل التحوي 

١‏ المقدمة 

٠,١‏ التوصيف النحوي 

Y‏ إرهاصات التحليل النحوي الحاسوبي 

Y‏ أهمية التحليل النحوي الحاسوبي 

€ خطوات التحليل c ol‏ الحاسوي 

CORPUS النص الخام / المدونة اللغوية‎ ٠,١ 
TOKENIZATION ,;2 2I تجزئة‎ £ , Y 
POS TAGGING العنونة بالأجزاء الكلامية‎ £ , Y 


£ , £ الترميز بالعلاقات التركيبية SYNTACTIC ANNOTATION‏ 


= \ M- 


E 


VY 


vy 


VN 


VN 


V^ 


^Y 


^N 


^^ 


^^ 


۸۹ 


5 


aY 
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5 موارد التحليل التركيبي للغة العربية وتطبيقاته 


الفصل الرابع: التحليل الدلالي 


۳ التحليل الدلالي في اللسانيات الحاسوبية 


SEMANTICS VS. PRAGMAT.., häll Jll el الحر فى‎ dl Y Y 
TOR ICS 


(IDIOMS) التعبير المجازي‎ Y, Y 


WORD SENSE DISAMBIGUATION فك اللبس الدلالي‎ £ 


( RESOURCE, JY.Ul الموارد اللغوية اللازمة في أنظمة فك اللبس‎ ٠, ١ 
REQUIREMENT) 


E, Y‏ فك اللبس الدلالي في اللغة العربية 


(SENTIMENT ANALYSIS) تحليل المشاعر‎ o 


o, ١‏ ميزات وتحديات تحليل المشاعر و شبكات التواصل الاجتماعي؟ 


ت 


۱۹ 


Y*4 


۱۰۹ 


BE 


1۱۲ 


١1 


1۱۸ 
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5 الكينونات we (ONTOLOGIES)‏ 
V‏ جهود بارزة في التحليل الدلالي للغة العربية W‏ 
الفصل الخامس: تحليل النصوص ۱۲۹ 
١‏ تعريف ۱۲۹ 
۲ دور البيانات الضخمة ۱۳۱ 
Y‏ مستويات تحليل النصوص MT‏ 
٤‏ مراحل تحليل النصوص yvy‏ 
١و٤‏ اختيار حالة الدراسة wv‏ 
٤, Y‏ تحديد سؤال البحث أو المشروع ré‏ 
EY‏ اختيار وجمع الوثائق والعينات النصية x:‏ 
٤‏ , £ الصيغة المنطقية الاستدلالية Wy‏ 
ه مصادر البيانات المعجمية الإلكترونية wv‏ 
5 المعالجة الحاسوبية النصوص WA‏ 
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(TOKENIZATION) و تقسيم النص إلى كلمات‎ ١ 


(STEMMING /LEMMATIZA- استخلاص جذع الكلمة‎ ٦,۲ 
TION) 


jesse oe 

(PART OF SPEECH TAGGING) وسم الفئة النحوية للكلمات‎ T, £ 
(NAMED ENTITY TAGGING) وسم أسماء الكيانات‎ o 

5,5 الناذج اللغوية 

ue gd ا اسو‎ coe s Y 

V‏ تطبيقات تحليل النصوص 

(TEXT CLASSIFICATION) تصنيف النصوص‎ V , \ 
(INFORMATION EXTRACTION) المعلومات‎ el sil V, Y 
(INFORMATION RETRIEVAL) استرجاع المعلومات‎ V, Y 
(SENTIMENT ANALYSIS) العام‎ jill لاتحليل‎ , £ 


6 الخاتمة 


= 


YY4 


۳۹ 


vY 


١57 


E 


٤ 


۹ 
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الفصل السادس: التدقيق الإملائى 


١‏ تمهيد 
Y‏ التدقيق الإملائي للغة العربية 

LYI اللغة العربية وإشكاليات قواعد‎ , Y 

Y y Y‏ الأخطاء الإملائية الشائعة 

v‏ المدقق الإملائي 

Y‏ اكتشاف الأخطاء 

٤‏ تصحيح الأخطاء 

o‏ إشارة ختامية إلى الفكرة العامة لبعض التقنيات المتقدمة وبعض المراجع 
فهرس الفصول 


فهرس المحتويات 


OO 


2A 


yY 


yY 


YTO 


11۷ 


VY 


1۷٦1 


YVA 


YAY 


Ao 


هذه الطبعة 
إهداء من المركز 


ولايسمح بنشرها ورقياً 
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مدخل. إلى اللسانيات الحاسوبية 


ve hnc etm ^ s اللغة‎ T Cen E E 
a a نخبة من المحررين والمؤلفين‎ UE واجتهد في‎ "T إليهاء أو إلى بدء النشاط البحثي‎ 
هذه السلسلة على أكمل وجه.‎ 

واف الک عن ela‏ ذلك اک ل الف فى الجالات ا نے Lat]‏ فده اة سواء أكان العمل 
علميا بحثياء أم عمليا تنفيذياء ويدعو المركز الباحثين كافة من أنحاء العالم إلى المساهمة في هذه السلسة. 

ودود الأمانة العامة أن aas‏ جود السادة coal Sl‏ و جهن محرر الكتاك: على Ls‏ تفضلوا به من رؤى وأفكار 
لخدمة العربية في هذا السياق البحثي. 

ud‏ ا العام على المركز» الذي يحث على كل ما من شأنه تثبيت 
الهوية اللغوية العربيةء وتمتينها > وفق رؤية است ستشرافية محققة لتوجيهات Lasla‏ الحكيمة. 

والدعوة موجهة إلى جميع المختصين والمهتمين بتكثيف الجهود والتكامل نحو تمكين لغتنا العربية. وتحقيق 
وجودها السامي في مجالات الحياة. 


مباحث لغوية H.‏ 


الآمين العام 
د.عبدالله بن صالح الوشمي 


مركز الملك عبدالته بن عبدالعزيز yuga‏ 


D‏ لخدمة اللغة العربية 
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